Datawhale AI夏令营—逻辑推理笔记（TASK2）

Cw了

已于 2024-07-30 22:42:11 修改

阅读量439

点赞数 15

文章标签：笔记

于 2024-07-30 22:40:21 首次发布

本文链接：https://blog.csdn.net/2301_80489334/article/details/140808231

版权

首先明确本次任务

在有了task1中对比赛机制的简单了解，我们将重新审视我们的比赛，思考一下，那些地方是可以被进一步优化，去掉比较容易发现的浅显的累赘

一、逻辑框架

我们今天将从下图去优化我们的参赛方式：

整体代码主要包括答案生成和纠错与结果文件生成两个大模块。

答案生成部分包括大模型的处理函数、大模型返回结果抽取、多线程处理及答案生成的启动。

这里代码核心是大模型部分，动手能力强的小伙伴可以从这里入手开始自己的上分之路~为了保证整体代码性能使用多线程处理请求。

纠错与结果生成部分存在的目的是由于目前使用了api调用在线开源大模型，因为网络、模型能力等原因会导致有一些结果会出现缺失。（比如大模型回答时，没有明确给出ABCD的结果，而返回的空值。也有时因为网络retry模块机会使用结束后，依然没有提取到结果会跳过某个问题。）

大模型推理实现最常用方法——提示工程(Prompt Engineering)

提示工程（Prompt Engineering）是一门较新的学科，关注提示词开发和优化，帮助用户将大语言模型（Large Language Model, LLM）用于各场景和研究领域。掌握了提示工程相关技能将有助于用户更好地了解大型语言模型的能力和局限性。

研究人员可利用提示工程来提升大语言模型处理复杂任务场景的能力，如问答和算术推理能力。开发人员可通过提示工程设计、研发强大的工程技术，实现和大语言模型或其他生态工具的高效接轨。

提示工程不仅仅是关于设计和研发提示词。它包含了与大语言模型交互和研发的各种技能和技术。提示工程在实现和大语言模型交互、对接，以及理解大语言模型能力方面都起着重要作用。用户可以通过提示工程来提高大语言模型的安全性，也可以赋能大语言模型，比如借助专业领域知识和外部工具来增强大语言模型能力。

输入问题：

这里选取了train的第一个问题。可以看到有问题背景、提问、以及选项这样结构的数据字典。

{
  'problem': 
        '有一群人和一些食物类型。下列是关于这些个体和食物的已知信息：\n\n1. 鸡肉是一种食物。\n2. 苹果是一种食物。\n3. 如果X吃了Y，且X活着，则Y是一种食物。\n4. Bill存活。\n5. Bill吃了花生。\n6. John吃所有食物。\n7. Sue吃所有Bill吃的食物。\n8. John喜欢所有食物。\n\n根据以上信息，回答以下选择题：', 
   'questions': [
        {
        'question': '选择题 1：\n谁喜欢吃花生？', 
        'options': ['Bill', 'Sue', 'John', 'None of the above']
        }
    ], 'id': 'round1_test_data_000'
}

转化后的prompt：

我们通过数据处理，将上面的问题字典转化为MD格式的prompt。这就是我们让大语言模型能理解并做分析的秘诀。

你是一个逻辑推理专家，擅长解决逻辑推理问题。以下是一个逻辑推理的题目，形式为单项选择题。所有的问题都是（close-world assumption）闭世界假设，即未观测事实都为假。请逐步分析问题并在最后一行输出答案，最后一行的格式为"答案是：A"。题目如下：

###题目:
有一群人和一些食物类型。下列是关于这些个体和食物的已知信息：

鸡肉是一种食物。
苹果是一种食物。
如果X吃了Y，且X活着，则Y是一种食物。
Bill存活。
Bill吃了花生。
John吃所有食物。
Sue吃所有Bill吃的食物。
John喜欢所有食物。

根据以上信息，回答以下选择题：

###问题:
选择题 1：
谁喜欢吃花生？
A. Bill
B. Sue
C. John
D. None of the above

大模型回答：

这里为了大家方便起见使用了尚未微调的开源模型Qwen2-1.5b-instruct的api。（虽然赛题要求使用大模型后上传环境，大家可以先在低成本的api上做好试验，最后提交前把环境打包到docker文件上传即可。）

我们可以看到大模型在output['choices']['message']['content']返回了推理的结果。我们通过这样的方式让大模型完成了我们的推理任务。

{
    "status_code": 200,
    "request_id": "18d43478-2aec-92be-8840-cd3bb08009cf",
    "code": "",
    "message": "",
    "output": {
        "text": null,
        "finish_reason": null,
        "choices": [
            {
                "finish_reason": "stop",
                "message": {
                    "role": "assistant",
                    "content": "我们可以通过分析给出的信息来解答这个问题。\n\n首先，我们知道Bill吃了花生（根据第5条信息），并且Bill还活着（根据第4条信息）。根据第3条规则，“如果X吃了Y，且X活着，则Y是一种食物”，我们可以推断出花生是一种食物。\n\n接下来，我们知道John吃所有食物（根据第6条信息），并且John喜欢所有食物（根据第8条信息）。既然花生是一种食物，那么John应该也吃花生，并且喜欢花生。\n\nSue吃所有Bill吃的食物（根据第7条信息），既然Bill吃了花生，那么Sue也应该吃花生。\n\n所以，喜欢吃花生的人有Bill、Sue和John。\n\n答案是：C. John\n\n但是，题目要求选择一个选项，而实际上Bill、Sue和John都喜欢吃花生。然而，在给出的选项中，只有John被明确列出作为喜欢吃花生的人（选项C）。因此，虽然Bill和Sue也喜欢吃花生，但根据题目要求，正确答案应当是包含在选项中的那个，即John。\n\n答案是：C. John"
                }
            }
        ]
    },
    "usage": {
        "input_tokens": 210,
        "output_tokens": 223,
        "total_tokens": 433
    }
}

二、环境配置

在了解了一定的流程和基本原理后，我们就要配置出相应的环境（也可以租，但会花费一些费用）

安装需要的库

!pip install scipy openai tiktoken retry dashscope loguru

配置好API，这个API在我们task01和大家介绍了，这里不多赘述。

# 注意：这里需要填入你的key~ 咱们在第二步申请的。
dashscope.api_key="sk-"

导入需要的环境，包括日志处理、多线程、api请求等相关库引入。

import json
import os
from pprint import pprint
import re
from tqdm import tqdm
import random

import uuid
import openai
import tiktoken
import json
import numpy as np
import requests
from retry import retry
from scipy import sparse
#from rank_bm25 import BM25Okapi
#import jieba
from http import HTTPStatus
import dashscope

from concurrent.futures import ThreadPoolExecutor, as_completed
from loguru import logger
import json
import time
from tqdm import tqdm

logger.remove()  # 移除默认的控制台输出
logger.add("logs/app_{time:YYYY-MM-DD}.log", level="INFO", rotation="00:00", retention="10 days", compression="zip")

MODEL_NAME = 'qwen2-7b-instruct'

后续就是答案生成、纠错，结果文件生成的过程。

Cw了

关注

15
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI夏令营—逻辑推理笔记（TASK2）

首先明确本次任务在有了task1中对比赛机制的简单了解，我们将重新审视我们的比赛，思考一下，那些地方是可以被进一步优化，去掉比较容易发现的浅显的累赘一、逻辑框架我们今天将从下图去优化我们的参赛方式：整体代码主要包括和两个大模块。包括大模型的处理函数、大模型返回结果抽取、多线程处理及答案生成的启动。这里代码核心是，动手能力强的小伙伴可以从这里入手开始自己的上分之路~为了保证整体代码性能使用多线程处理请求。
复制链接

扫一扫