【项目实训】基于大模型的小学语数英辅助教育平台 | 数据处理（3）

Licky冰

于 2024-05-30 20:18:01 发布

阅读量326

点赞数 4

文章标签：语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_64369373/article/details/139333003

版权

我们选用ape210k数据集作为我们的训练数据集。庞大的数据集并不能立马输入到模型中进行训练，因此我们对数据进行了处理。

为了便于后面我们的根据知识点生成题目的功能实现，我们会为数据集中每个数据贴上题目类别的标签，小组商讨后决定使用ChatGPT提供的API来对数据进行标签分类：

一. 提示工程

为了能够更好地进行标签分类，对提示词工程进行了调研和学习：

提示语设计原理

指示（Instructions）关键词：任务描述
- 指示是对任务的明确描述，相当于给模型下达了一个命令或请求。它告诉模型应该做什么，是任务执行的基础。
上下文（Context）关键词：背景信息
- 上下文是与任务相关的背景信息，它有助于模型更好地理解当前任务所处的环境或情境。在多轮交互中，上下文尤其重要，因为它提供了对话的连贯性和历史信息。
例子（Examples）关键词：示范学习
- 例子是给出的一或多个具体示例，用于演示任务的执行方式或所需输出的格式。这种方法在机器学习中被称为示范学习，已被证明对提高输出正确性有帮助。
输入（Input）关键词：数据输入
- 输入是任务的具体数据或信息，它是模型需要处理的内容。在Prompt中，输入应该被清晰地标识出来，以便模型能够准确地识别和处理。
输出（Output）关键词：结果格式
- 输出是模型根据输入和指示生成的结果。在Prompt中，通常会描述输出的格式，以便后续模块能够自动解析模型的输出结果。常见的输出格式包括结构化数据格式如JSON、XML等

二. 数据处理

为了能够在后面的任务中根据不同的知识点来生成不同的题目，我们处理数据的一个重要环节是将每一条数据附上知识点的标签（知识点总结由组内另一个同学完成）。通过ChatGPT来判断每条数据中的题目对应哪些知识点标签。通过接入ChatGPT的API来判断每条数据所属的知识点：

通过提示词来分类数据，可以得到带有分类label的处理后的数据集：

我们小组通过分工，每个组员分别处理了近2w条数据，总共获得了近10w条数据来进行后面的模型微调训练。

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【项目实训】基于大模型的小学语数英辅助教育平台 | 数据处理（3）

我们选用ape210k数据集作为我们的训练数据集。庞大的数据集并不能立马输入到模型中进行训练，因此我们对数据进行了处理。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。