星火大模型阅读赛datawhale数据增强

qq_38138014

已于 2024-08-17 23:01:47 修改

阅读量773

点赞数 9

分类专栏： #datawhale夏令营星火阅读理解题库构建赛第四期文章标签： python

于 2024-08-17 22:58:30 首次发布

本文链接：https://blog.csdn.net/qq_38138014/article/details/141288475

版权

#datawhale夏令营同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

第四期

5 篇文章 0 订阅

订阅专栏

星火阅读理解题库构建赛

3 篇文章 0 订阅

订阅专栏

前面我们介绍了baseline的思路及写作方案，这里我们尝试对数据做增强，但是需要聪明的你加入自己的努力完成更好的思路。

1.数据增强

首先请大家登录领取网址：星火大模型MAX api领取地址（点击跳转）

1.1星火Max模型api调用方式

# 环境安装 pip install --upgrade spark_ai_python

from sparkai.llm.llm import ChatSparkLLM, ChunkPrintHandler
from sparkai.core.messages import ChatMessage

#星火认知大模型Spark Max的URL值，其他版本大模型URL值请前往文档（https://www.xfyun.cn/doc/spark/Web.html）查看
SPARKAI_URL = 'wss://spark-api.xf-yun.com/v3.5/chat'
#星火认知大模型调用秘钥信息，请前往讯飞开放平台控制台（https://console.xfyun.cn/services/bm35）查看
SPARKAI_APP_ID = ''
SPARKAI_API_SECRET = ''
SPARKAI_API_KEY = ''
#星火认知大模型Spark Max的domain值，其他版本大模型domain值请前往文档（https://www.xfyun.cn/doc/spark/Web.html）查看
SPARKAI_DOMAIN = 'generalv3.5'

def call_sparkai(prompt):
    spark = ChatSparkLLM(
        spark_api_url=SPARKAI_URL,
        spark_app_id=SPARKAI_APP_ID,
        spark_api_key=SPARKAI_API_KEY,
        spark_api_secret=SPARKAI_API_SECRET,
        spark_llm_domain=SPARKAI_DOMAIN,
        streaming=False,
    )
    messages = [ChatMessage(
        role="user",
        content=prompt
    )]
    handler = ChunkPrintHandler()
    a = spark.generate([messages], callbacks=[handler])
    return a.generations[0][0].text

1.2.使用大模型完成答案生成

还记得我们的训练数据吗？

|| 阅读文本 || 选项 || 答案 ||

大概是上面三部分，那么如果咱们使用大模型，如何直接生成我们需要的QA数据呢？

prompt设计

给出主要需求：

你是一个高考英语阅读题出题专家，请阅读材料，需要参考参考内容按照要求将题目、选项、答案对其补充完整。【这里我们要给定大模型身份，这是一般书写prompt的第一句。接着向大模型指定任务，按照我们的要求做一些事情，还有一些参考内容。】

接着给出参考材料：

###阅读材料 {reading}

接着给出具体要求：

###要求 1.需要将序号对应的题目与答案做匹配。 2.匹配后格式按照问题、ABCD四个选项顺序、答案的结构组合，按照参考内容格式输出。 3.如果选择题目数量不够四个请根据阅读材料及出题思路再生成题目，总题目达到四个。 4.题目中不能出现任何不合理的词汇、语法错误。 5.如果有简答题目与答案请忽略这部分内容，只处理选择题目。

【这里是需要大模型一步步去完成的任务，每一条都是大模型需要遵守并实现的。再开头我们只是粗劣的告诉大模型干嘛，但是想大模型老老实实听话干活，需要我们将每个任务都拆解清晰逐步明确！】

接着给出参考内容：

{cankao_content}

cankao_content = '''
1. 以下哪个选项是“具身认知”的定义？
A. 认知在功能上的独立性、离身性构成了两种理论的基础。
B. 认知在很大程度上是依赖于身体的。
C. 认知的本质就是计算。
D. 认知和心智根本就不存在。

答案：B

2. 以下哪个实验支持了“具身认知”的假设？
A. 一个关于耳机舒适度的测试。
B. 一个关于眼睛疲劳程度的测试。
C. 一个关于人类感知能力的实验。
D. 一个关于人类记忆力的实验。

答案：A

3. 以下哪个选项是“离身认知”的教育观的特点？
A. 教育仅仅是心智能力的培养和训练，思维、记忆和学习等心智过程同身体无关。
B. 教育观认为身体仅仅是一个“容器”，是一个把心智带到课堂的“载体”。
C. 教育观认为知识经验的获得在很大程度上依赖于我们身体的体验性。
D. 教育观认为知识经验的获得在很大程度上依赖于我们大脑的记忆能力。

答案：A

4. 以下哪个选项是“具身认知”带来的教育理念和学习理念的变化？
A. 更强调全身心投入的主动体验式学习。
B. 更注重操作性的体验课堂，在教学过程中将学生的身体充分调动起来，这在教授抽象的概念知识时尤为重要。
C. 更强调教师的教学方法和学生的学习方法。
D. 更注重教师的教学技巧和学生的学习技巧。

答案：A'''

给出题目和答案

def get_adddata_prompt_zero(reading, cankao_content, question, answer):
    prompt = f'''你是一个高考英语阅读题出题专家，请阅读材料，需要参考参考内容 按照要求将题目、选项、答案对其补充完整。

###阅读材料
{reading}

###要求
1.需要将序号对应的题目与答案做匹配。
2.匹配后格式按照问题、ABCD四个选项顺序、答案的结构组合，按照参考内容格式输出。
3.如果选择题目数量不够四个请根据阅读材料及出题思路再生成题目，总题目达到四个。
4.题目中不能出现任何不合理的词汇、语法错误。
5.如果有简答题目与答案请忽略这部分内容，只处理选择题目。

###参考内容
{cankao_content}

###题目
{question}

###答案
{answer}
'''
    return prompt

可以看到效果是蛮不错的，后面我们可以试试评分大模型对这个结果评价一下。

1. 作者在旅途中乘坐新宁铁路的主要目的是什么？
A. 探访朋友。
B. 观赏南国的风景。
C. 体验机械的诗意。
D. 研究铁路工程。

答案：A

2. 根据文本，作者对“机械的诗”的理解主要强调了哪方面？
A. 机械的实用价值。
B. 机械与自然景观的结合。
C. 机械运动中的美感和创造性。
D. 机械操作的技术细节。

答案：C

3. 作者认为真正的诗应该具备哪些特质？
A. 描述自然风景。
B. 表达爱情情感。
C. 散布生命，给人以创造的喜悦。
D. 只关注传统主题如月夜、花朝。

答案：C

4. 作者在上海观察到的建筑场景中，机械的作用体现在哪个方面？
A. 破坏自然环境。
B. 创造建筑奇迹。
C. 增加土地价值。
D. 引起公众担忧。

答案：B

1.3 使用大模型增强数据

之前大家在讯飞平台上看到数据增强，但未必适合我们。这里因为题目要求，我们使用大模型自己实现一下数据增强吧。

增强思路1.补全四个选项及答案

由于之前生成的数据中我们处理的数据不一定满足四个选项与答案，这里我们需要将答案补全，我们看看如何使用大模型补全。

这里面我们的增强prompt如下，和直接生成的思路很想们这里的不同点是要求，这里的题目与答案是我们baseline1生产的output部分内容。

这里我们主要要求大模型生成四个答案，这是我们的核心目标。

def get_adddata_prompt_rebuild(reading, cankao_content, output):
    prompt = f'''你是一个高考英语阅读题出题专家，请阅读材料，需要参考参考内容 按照要求将题目、选项、答案对其补充完整。

###阅读材料
{reading}

###要求
1.如果选择题目不足四个需要根据参考内容出选择题补充。
2.补充内容格式按照问题、ABCD四个选项顺序、答案的结构组合，按照参考内容格式输出。
3.如果选择题目数量不够四个请根据阅读材料及出题思路再生成题目，总题目达到四个，如果够四个则不做多余补充。
4.题目中不能出现任何不合理的词汇、语法错误。

###参考内容
{cankao_content}

###题目与答案
{output}
'''
    return prompt

这里#####之后是大模型补充的内容。


1.'下列对本文相关内容和艺术特色的分析鉴赏，不正确的一项是?
                
A.小龙与“我"父亲毛羽的电话，既介绍了本文故事发生的起因，表现了书匠老董
B.“老董穿了一件卡其布的工作服，肩膀上挎了个军挎”，“踩着辆二八型的自行
C.小松鼠跳到地上，“像人- -样站起了身，前爪紧紧擒着一颗橡子”，渲染了此处的
D.“仪器做了电子配比都没辙”，老董却用传统工艺修复了稀见典籍，说明在科技发
答案: C
 
########### 2. 老董为什么要自己染制蓝色的绢？
A. 因为市面上找不到合适的蓝色绢。
B. 因为老董对现代染色技术不满意。
C. 因为老董想要证明传统技艺的可行性。
D. 因为老董需要修复一本珍贵的古籍。
答案：D

3. 根据文章内容，老董为什么每年都会去东郊的城墙处？
A. 为了寻找橡碗用于制作染料。
B. 为了纪念已故的老馆长。
C. 为了享受大自然的美景。
D. 为了教授“我”关于自然的知诀。
答案：B

4. 以下哪个选项不是老董使用传统技艺修复书籍的原因？
A. 传统技艺可以更精确地匹配原书皮的颜色和质地。
B. 老董想通过这种方式保存并传承传统的修书技艺。
C. 老董认为只有传统方法才能达到他想要的修复效果。
D. 老董希望通过现代科技手段来提高修复效率。
答案：D

2.结果评分

为什么要在这里讲结果评分？因为目前我们给出的结果提交后是用大语言模型评分后给出初赛成绩。但是目前我们需要等待漫长的时间等大语言模型给出评分结果，还需限制了我们的提交次数（每周仅可提交4次！）。大大影响了我们调整的进度，为此这里给出测评方案，大家学习后可以自行评分~

2.1 大模型评分

大模型目前可以弥补一些人类评分的痛点，提升评分效率。掌握这个方法对日后完成评价类任务有很大帮助。评分技术不光用在agent设计，还可以优化推荐算法等等，帮你提升算法质量。

人类评分的痛点

主观性和不一致：不同评分者可能因个人标准和偏见导致评分不一致。
时间和资源密集：手动评分耗时且需要大量人力资源，限制了评分任务的可扩展性和效率。
疲劳和认知限制：评分者易受疲劳和认知限制影响，影响评分质量和一致性。
缺乏细致反馈：难以提供针对绩效特定方面的详细反馈。

AI在评分方面的优势

一致性和标准化：LLMs通过训练和微调，确保评分的一致性。
效率和可扩展性：AI系统能快速处理大量数据，提高评分效率。
客观性和公正性：减少人类主观性和偏见，促进公平。
细致且可操作的反馈：提供针对绩效各方面的详细反馈。

2.2 星火大模型评分

这里我定义了一下评分思路，赋分情况以及打分标准。

首先满足题目数量及含有对应答案。

接着对给出的答案匹配情况做打分设定。

对选项和文章匹配程度做打分设定。

对选项和高考考试要求做打分设定。

对输出情况做设定。

满足上面条件后输出结果。

judgement = f'''
你是一个高考阅读题目出题专家，你需要根据下面要求结合阅读文章对题目及答案这样的出题情况进行打分，根据要求一步一步打分，得到有效分数后你将得到100万元的报酬，给出最终得分情况，以“总分:XX分”的形式返回。

### 阅读文章
{reading}

### 题目及答案
{QA}

### 要求

1. 判断给出的题目及答案，题目是否为四道，如果不满足四道，少一道题扣10分，如果每个题目没有答案，少一个答案扣5分。
1. 给出题目选项与答案匹配正确度给分，通过阅读文章每分析道题目正确，则给5分，如果错误给0分。四道题满分20分。
2. 给出题目与选项在阅读文章中的匹配程度给分，每道题目符合阅读文章且选择答案复合题目并可用通过阅读文章分析得到，完全符合给3分，完全不符合给0分。四道题满分12分。
3. 给出题目与选项是否符合高考难度，每道题目与答案是否符合高考的难度，完全符合给3分，完全不符合给0分。四道题满分12分。
4. 给出最终得分情况,对上面三个分数进行求和得到总分，以“总分:XX分”的形式返回，三个问题满分共44分。
'''

score = call_sparkai(judgement)
score

星火输出内容

'### 题目分析与评分\n\n#### 1. 题目选项与答案匹配正确度评分\n- **第一题**：作者在旅途中乘坐新宁铁路的主要目的是什么？\n - 文章中提到“为了去看一个朋友”，因此答案是A。**正确**\n- **第二题**：根据文本，作者对“机械的诗”的理解主要强调了哪方面？\n - 文章中指出机械的力量、灵妙、优雅和完备，符合C选项的描述。**正确**\n- **第三题**：作者认为真正的诗应该具备哪些特质？\n - 文章提到诗应给人以创造的喜悦和散布生命，与C选项相符。**正确**\n- **第四题**：作者在上海观察到的建筑场景中，机械的作用体现在哪个方面？\n - 文中提到机械完成了奇迹，并给了每个人一种喜悦，这与B选项相符。**正确**\n\n **得分： 5 + 5 + 5 + 5 = 20分**\n\n#### 2. 题目与选项在阅读文章中的匹配程度评分\n- **第一题**：直接引用文章中的目的描述，非常匹配。**3分**\n- **第二题**：准确捕捉到作者对机械美感和创造性的表述，完全匹配。**3分**\n- **第三题**：紧密关联作者对诗的定义和感受，完全匹配。**3分**\n- **第四题**：准确反映了文中关于建筑和机械作用的描述，完全匹配。**3分**\n\n **得分： 3 + 3 + 3 + 3 = 12分**\n\n#### 3. 题目与选项是否符合高考难度评分\n- **第一题**：问题直接且容易理解，适合高考水平。**3分**\n- **第二题**：需要学生理解和分析作者对机械美学的观点，适合高考水平。**3分**\n- **第三题**：涉及对文中情感和定义的理解，适合高考水平。**3分**\n- **第四题**：要求学生从具体例子中抽象出机械的作用，适合高考水平。**3分**\n\n **得分： 3 + 3 + 3 + 3 = 12分**\n\n### 最终得分情况\n**总分： 44分**'

得到数字得分为

import re

text = score.replace(' ', '')

# 使用正则表达式匹配阅读文本后的内容

match = re.search(r'总分：(\d+)分', text)

if match:
    content = match.group(1)
    print(int(content))
else:
    print("未找到匹配的内容")

然后，按照baseline1的思路运行。

最后，感谢datawhale。