【项目实训】基于大模型的小学语数英辅助教育平台 | 数据处理(3)

我们选用ape210k数据集作为我们的训练数据集。庞大的数据集并不能立马输入到模型中进行训练,因此我们对数据进行了处理。

为了便于后面我们的根据知识点生成题目的功能实现,我们会为数据集中每个数据贴上题目类别的标签,小组商讨后决定使用ChatGPT提供的API来对数据进行标签分类:

一. 提示工程

为了能够更好地进行标签分类,对提示词工程进行了调研和学习:

提示语设计原理

  • 指示(Instructions)关键词:任务描述
    • 指示是对任务的明确描述,相当于给模型下达了一个命令或请求。它告诉模型应该做什么,是任务执行 的基础。
  • 上下文(Context)关键词:背景信息
    • 上下文是与任务相关的背景信息,它有助于模型更好地理解当前任务所处的环境或情境。在多轮交互中, 上下文尤其重要,因为它提供了对话的连贯性和历史信息。
  • 例子(Examples)关键词:示范学习
    • 例子是给出的一或多个具体示例,用于演示任务的执行方式或所需输出的格式。这种方法在机器学习中 被称为示范学习,已被证明对提高输出正确性有帮助。
  • 输入(Input)关键词:数据输入
    • 输入是任务的具体数据或信息,它是模型需要处理的内容。在Prompt中,输入应该被清晰地标识出来, 以便模型能够准确地识别和处理。
  • 输出(Output)关键词:结果格式
    • 输出是模型根据输入和指示生成的结果。在Prompt中,通常会描述输出的格式,以便后续模块能够自动 解析模型的输出结果。常见的输出格式包括结构化数据格式如JSON、XML等

二. 数据处理

为了能够在后面的任务中根据不同的知识点来生成不同的题目,我们处理数据的一个重要环节是将每一条数据附上知识点的标签(知识点总结由组内另一个同学完成)。通过ChatGPT来判断每条数据中的题目对应哪些知识点标签。通过接入ChatGPT的API来判断每条数据所属的知识点:

通过提示词来分类数据,可以得到带有分类label的处理后的数据集:

我们小组通过分工,每个组员分别处理了近2w条数据,总共获得了近10w条数据来进行后面的模型微调训练。

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值