大模型技术实践-Datawhale AI 夏令营

bai-yu

已于 2024-07-31 00:18:58 修改

阅读量341

点赞数 4

文章标签：人工智能

于 2024-07-28 22:49:08 首次发布

本文链接：https://blog.csdn.net/2301_80403398/article/details/140757258

版权

baseline 操作流程与相关学习理解

1.下载datawhale提供的代码和测试集后上传至Notebook

2.输入key，运行代码

!pip install scipy openai tiktoken retry dashscope loguru

使用pip安装多个包

from multiprocessing import Process, Manager
import json
import os
from pprint import pprint
import re
from tqdm import tqdm
import random

import uuid
import openai
import tiktoken
import json
import numpy as np
import requests
from retry import retry
from scipy import sparse
#from rank_bm25 import BM25Okapi
#import jieba
from http import HTTPStatus
import dashscope


from concurrent.futures import ThreadPoolExecutor, as_completed
from loguru import logger
import json
import time
from tqdm import tqdm

logger.remove()  # 移除默认的控制台输出
logger.add("logs/app_{time:YYYY-MM-DD}.log", level="INFO", rotation="00:00", retention="10 days", compression="zip")

MODEL_NAME = 'qwen2-7b-instruct'

导入相关的库导入和日志配置

def api_retry(MODEL_NAME, query):
    max_retries = 5
    retry_delay = 60  # in seconds
    attempts = 0
    while attempts < max_retries:
        try:
            return call_qwen_api(MODEL_NAME, query)
        except Exception as e:
            attempts += 1   
            if attempts < max_retries:
                logger.warning(f"Attempt {attempts} failed for text: {query}. Retrying in {retry_delay} seconds...")
                time.sleep(retry_delay)
            else:
                logger.error(f"All {max_retries} attempts failed for text: {query}. Error: {e}")
                raise

调用函数，并设置最大重试次数max_retries为五次，使用 loguru 库的 logger 来记录警告和错误信息。

def call_qwen_api(MODEL_NAME, query):
    # 这里采用dashscope的api调用模型推理，通过http传输的json封装返回结果
    messages = [
        {'role': 'user', 'content': query}]
    response = dashscope.Generation.call(
        MODEL_NAME,
        messages=messages,
        result_format='message',  # set the result is message format.
    )
    if response.status_code == HTTPStatus.OK:
        # print(response)
        return response['output']['choices'][0]['message']['content']
    else:
        print('Request id: %s, Status code: %s, error code: %s, error message: %s' % (
            response.request_id, response.status_code,
            response.code, response.message
        ))
        raise Exception()

查询模型的功能，并在请求失败时提供错误反馈。

# 这里使用extract抽取模获得抽取的结果

def extract(input_text):
    ans_pattern = re.compile(r"答案是：(.)", re.S)

    problems = ans_pattern.findall(input_text)
    # print(problems)
    if(problems == []):
        return 'A'
    return problems[0]

从输入的文本 input_text 中提取特定模式的信息。

判断列表是否为空

如果 problems 列表为空（即没有找到任何匹配项），函数将返回字符 'A'。
如果 problems 列表不为空，函数将返回列表中的第一个元素（即第一个匹配项）。

def process_datas(datas,MODEL_NAME):
    results = []
    with ThreadPoolExecutor(max_workers=16) as executor:
        future_data = {}
        lasttask = ''
        lastmark = 0
        lens = 0
        for data in tqdm(datas, desc="Submitting tasks", total=len(datas)):
            problem = data['problem']
            for id,question in enumerate(data['questions']):
                prompt = get_prompt(problem, 
                                    question['question'], 
                                    question['options'],
                                    )

                future = executor.submit(api_retry, MODEL_NAME, prompt)
                
                future_data[future] = (data,id)
                time.sleep(0.6)  # 控制每0.5秒提交一个任务
                lens += 1
        for future in tqdm(as_completed(future_data), total=lens, desc="Processing tasks"):
            # print('data',data)
            data = future_data[future][0]
            problem_id = future_data[future][1]
            try:
                res  = future.result()
                extract_response = extract(res)
                # print('res',extract_response)
                data['questions'][problem_id]['answer'] = extract_response
                results.append(data)
                # print('data',data)
                
            except Exception as e:
                logger.error(f"Failed to process text: {data}. Error: {e}")
    
    return results

对一组数据中的每个问题调用 API 进行推理，并提取并存储每个问题的答案。

使用as_completed 迭代已完成的任务，并处理每个任务的结果。

extract 函数提取答案，并将答案进行存储。

使用 ThreadPoolExecutor 创建线程池，max_workers=16 最大线程数为 16，并行处理，提高效率

def main(ifn, ofn):
    if os.path.exists(ofn):
        pass
    data = []
    # 按行读取数据
    with open(ifn) as reader:
        for line in reader:
            sample = json.loads(line)
            data.append(sample)
    datas = data
    # print(data)
    # 均匀地分成多个数据集
    return_list = process_datas(datas,MODEL_NAME)
    print(len(return_list))
    print("All tasks finished!")
    return return_list

def evaluate(ofn):
    data = []
    with open(ofn) as reader:
        for line in reader:
            sample = json.loads(line)
            data.append(sample)

    pse = 0
    cnt = 0
    tot = 0
    for task in data:
        for question in task['questions']:
            
            if MODEL_NAME in question:
                tot += 1
                cnt += question[MODEL_NAME] == question['answer']
            else:
                pse += 1

    print(cnt, tot, cnt/tot, pse)

每行数据使用 json.loads 解析为 Python 字典，并添加到列表 data

遍历 data 列表中的每个任务。每个任务中的每个问题，检查问题字典中是否存在 MODEL_NAME 键。

如果不存在 pse 加 1。

如果存在，说明该问题有模型的预测答案，将 tot 加 1，并检查模型的预测答案是否与问题中的实际答案匹配，如果匹配则 cnt 加 1。

if __name__ == '__main__':

    a = extract("""根据欧几里得算法，逐步解析计算两个数6和7的最大公约数（gcd）的步骤如下：

1. 判断6和7是否相等：不相等。
2. 判断6和7大小关系，7 > 6，所以用更大的数7减去较小的数6得到结果1。
3. 现在计算6和1的最大公约数。
4. 6 > 1，根据算法用更大的数6减去较小的数1得到结果5。
5. 再计算5和1的最大公约数。
6. 5 > 1，用5减去1得到结果4。
7. 再计算4和1的最大公约数。
8. 4 > 1，用4减去1得到结果3。
9. 再计算3和1的最大公约数。
10. 3 > 1，用3减去1得到结果2。
11. 再计算2和1的最大公约数。
12. 2 > 1，用2减去1得到结果1。
13. 最后计算1和1的最大公约数，两数相等，gcd即为这两个数，也就是1。

因此，6和7的最大公约数是1。

答案是：C.""")

    print(a)
    return_list = main('round1_test_data.jsonl', 'upload.jsonl')

if __name__ == '__main__': 代码将在直接运行此脚本时执行，而在被其他脚本导入时则不会执行

def has_complete_answer(questions):
    # 这里假设完整答案的判断逻辑是：每个question都有一个'answer'键
    for question in questions:
        if 'answer' not in question:
            return False
    return True

def filter_problems(data):
    result = []
    problem_set = set()

    for item in data:
        # print('处理的item' ,item)
        problem = item['problem']
        if problem in problem_set:
            # 找到已存在的字典
            for existing_item in result:
                if existing_item['problem'] == problem:
                    # 如果当前字典有完整答案，替换已存在的字典
                    if has_complete_answer(item['questions']):
                        existing_item['questions'] = item['questions']
                        existing_item['id'] = item['id']
                    break
        else:
            # 如果当前字典有完整答案，添加到结果列表
            if has_complete_answer(item['questions']):
                result.append(item)
                problem_set.add(problem)

    return result

has_complete_answer 检查每个问题字典中是否都包含 'answer' 键。

filter_problems 函数：从输入的数据列表中筛选出具有完整答案的问题集，并确保每个问题只出现一次。如果一个问题有多个条目，则只保留包含完整答案的条目。

return_list
return_list = filter_problems(return_list)
sorted_data = sorted(return_list, key=lambda x: int(str(x['id'])[-3:]))
print(sorted_data)

调用filter_problems函数对return_list进行过滤，旨在移除重复问题并确保每个保留的问题都附带完整答案，过滤后的数据被重新赋值给return_list。

sorted函数对return_list进行排序。

排序依据是一个lambda函数，该函数提取每个元素（即字典）的'id'键对应的值，并将其转换为字符串后取最后三位，再转换为整数作为排序的键

sorted_data

def find_missing_ids(dict_list):
    # 提取所有序号
    extracted_ids = {int(d['id'][-3:]) for d in dict_list}
    
    # 创建0-500的序号集合
    all_ids = set(range(500))
    
    # 找出缺失的序号
    missing_ids = all_ids - extracted_ids
    
    return sorted(missing_ids)

# 示例字典列表
dict_list = sorted_data

# 找出缺失的序号
missing_ids = find_missing_ids(dict_list)
print("缺失的序号:", missing_ids)

len(missing_ids)

缺失问题数目

data  = []
with open('round1_test_data.jsonl') as reader:
    for id,line in enumerate(reader):
        if(id in missing_ids):
            sample = json.loads(line)
            for question in sample['questions']:
                question['answer'] = 'A'
            sorted_data.append(sample)
sorted_data = sorted(sorted_data, key=lambda x: int(str(x['id'])[-3:]))

with open('upload.jsonl', 'w') as writer:
    for sample in sorted_data:
        writer.write(json.dumps(sample, ensure_ascii=False))
        writer.write('\n')

将样本写入upload文件中

最后就可以提交upload文件查看分数了。

bai-yu

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
大模型技术实践-Datawhale AI 夏令营

从输入的数据列表中筛选出具有完整答案的问题集，并确保每个问题只出现一次。进行过滤，旨在移除重复问题并确保每个保留的问题都附带完整答案，过滤后的数据被重新赋值给。对一组数据中的每个问题调用 API 进行推理，并提取并存储每个问题的答案。加 1，并检查模型的预测答案是否与问题中的实际答案匹配，如果匹配则。键对应的值，并将其转换为字符串后取最后三位，再转换为整数作为排序的键。每个任务中的每个问题，检查问题字典中是否存在。迭代已完成的任务，并处理每个任务的结果。如果存在，说明该问题有模型的预测答案，将。
复制链接

扫一扫