创新项目实训-文本分类（给题目打上知识点标签）

The North Sea

已于 2024-05-30 19:23:15 修改

阅读量740

点赞数 19

文章标签：机器学习

于 2024-05-30 19:17:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_63170595/article/details/139332487

版权

数据集选择

目前选择处理的数据集是Ape210K，这是一个开源的中文小学数学题数据集。数据量为210K.后续根据模型微调需要，可能还会使用其他的数据集做补充。
任务概述

由于在模型的微调训练中需要用到知识点标签，在获得基础的数据集后，对数据集进行处理，打上知识点标签。

设计、编写了一个dataProcess程序来完成这个任务。这个程序主要由以下几个部分组成。

1.调用接口。

2.提示词与请求函数。

3.处理response的代码

4.异常捕捉与处理代码

将数据集分割为几部分，每人负责标记一部分数据。

任务难点与解决方案

1.调用接口

调用付费接口的成本相对高昂（标记一遍数据集gpt3.5预计成本150+RMB，gpt4昂贵到1600+RMB）

寻找了多个提供gpt免费接口的项目，尝试部署并对他们做出对比。

最终使用free_chatgpt_api这个项目提供的免费接口。此接口因为免费，所以限制每分钟调用次数不得超过20次，并且额度有限。这限制了高并发请求（但每个人借了几个舍友的key，慢慢跑到底跑完了）

2.模型标注知识点的准确度、幻觉问题，提示词的迭代设计

在实际测试gpt-3.5的知识点标注效果中，发现对于提前准备好的标签，gpt-3.5的分类效果很差，并且时常出现幻觉问题，虚构出不存在的、根本不符合题目的标签，并经常忽略指定的输出格式，输出无关内容。如果直接处理，数据集标签的质量将非常堪忧。

为了解决这个问题，重新设计了打标签的思路，不向模型提供现成标签，而令模

最低0.47元/天解锁文章

博客等级

码龄4年

13
原创

93
点赞

63
收藏

83
粉丝

关注

私信

热门文章

最新评论

创新项目实训-工作总结
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
创新项目实训-小学数学知识点
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
创新项目实训-EduChat论文要点提炼
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/618532327。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。