项目实训个人周报1

琴生c

已于 2024-05-31 15:55:26 修改

阅读量333

点赞数 5

文章标签： python

于 2024-05-31 15:44:40 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/srjghs/article/details/139354580

版权

我们组的项目是基于大模型的知识问答教育系统，我在前期的任务是数据采集和处理清洗，以便于构建数据集训练大模型。

基于调查研究，我对于数据收集的关键点做出了以下归纳。

准确性：确保数据来源可靠，内容准确无误。错误的信息会导致模型输出错误答案，影响用户体验和教育效果。
更新性：确保数据是最新的，特别是对于动态变化的领域，如科技、法律等。
教育层次：覆盖从基础教育到高等教育的内容，适应不同学习阶段的用户需求。
结构化数据：优先选择结构化数据（如数据库、表格），便于处理和分析。
隐私保护：确保用户数据的匿名化处理，避免泄露个人信息。
合规性：遵守数据保护法律法规，如GDPR等，确保数据收集和使用过程中的合法合规性。

在开始的时候，我准备从百度百科、csdn等知识网站上收集数据，但是我发现这些网站上的数据质量良莠不齐，有的甚至有常识性错误，难以在爬取的时候进行分辨；并且这些数据的格式不一致，在后期处理的时候会造成麻烦，于是放弃。

然后我找到了Hugging Face 的 Datasets 库，这个库提供了大量预构建的数据集，涵盖了广泛的任务和领域，包括文本分类、情感分析、机器翻译、问答、对话系统等。这些数据集经过整理和优化，便于用户直接使用。这个库还可以通过简单的 API 调用轻松下载和加载数据集，无需手动下载和处理数据文件，比较方便。

Hugging Face 的 Datasets 库.png

于是我决定在这里进行数据的收集。因为我们的项目是问答系统，所以我筛选了可能用得到的QA数据集。以下是我认为能用到的数据集，供给大模型训练。

医疗：https://huggingface.co/datasets/lavita/medical-qa-datasets?row=15

https://huggingface.co/datasets/blinoff/medical_qa_ru_data?row=7

https://huggingface.co/datasets/medalpaca/medical_meadow_medqa

中医：https://huggingface.co/datasets/FreedomIntelligence/huatuo_knowledge_graph_qa

https://huggingface.co/datasets/FreedomIntelligence/huatuo_encyclopedia_qa/viewer/default/train?p=3624&row=362400

中文综合：https://huggingface.co/datasets/m-a-p/COIG-CQIA

博客节目：https://huggingface.co/datasets/wavpub/JinJinLeDao_QA_Dataset

哲学：https://huggingface.co/datasets/sayhan/strix-philosophy-qa/viewer/default/train?p=1337&row=133777

心理健康：https://huggingface.co/datasets/Amod/mental_health_counseling_conversations?row=7

小学数学：https://huggingface.co/datasets/microsoft/orca-math-word-problems-200k

计算机相关

数学：https://huggingface.co/datasets/math-ai/StackMathQA

python编程：https://huggingface.co/datasets/lucasmccabe-lmi/codex_math_qa_alpaca_style/viewer/default/train?p=280&row=28004

https://huggingface.co/datasets/flytech/python-codes-25k

sql编程：https://huggingface.co/datasets/b-mc2/sql-create-context

代码指令：https://huggingface.co/datasets/m-a-p/CodeFeedback-Filtered-Instruction?row=38

https://huggingface.co/datasets/m-a-p/Code-Feedback/viewer/default/train?p=663&row=66310

论文NLP：https://huggingface.co/datasets/allenai/qasper?row=0

stackExchange：https://huggingface.co/datasets/lvwerra/stack-exchange-paired?row=16

综合包括computer science：https://huggingface.co/datasets/MMMU/MMMU/viewer/Computer_Science/test?row=2

https://huggingface.co/datasets/cais/mmlu/viewer/college_computer_science?row=29

https://huggingface.co/datasets/ikala/tmmluplus/viewer/computer_science/test

然后我在kaggle网站上找到了一个与我们项目适配程度较大的数据集，是关于计算机理论知识的问答集：

https://www.kaggle.com/datasets/mujtabamatin/computer-science-theory-qa-dataset

kaggle数据集.png

结合做大模型相关工作的同学的反馈，我选取了上述中的几个数据集，整理成了csv文件，以便于后续的数据清洗等工作。

csv文件.png

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

琴生c CSDN认证博客专家 CSDN认证企业博客

码龄3年

16: 原创

150万+: 周排名

12万+: 总排名

7633: 访问

: 等级

250: 积分

96: 粉丝

104: 获赞

6: 评论

134: 收藏

私信

关注

热门文章

最新评论

山东大学软件学院大二下数据结构课设源码+报告等
CSDN-Ada助手: 恭喜您完成第一篇博客！标题非常明确，内容也很具体，对于那些正在学习数据结构的同学们来说，这篇博客一定会非常有帮助。希望您能继续坚持写博客，分享更多有价值的学习经验和技术资源。下一步，我建议您可以在博客中加入一些个人实践心得，或是对于该课程的一些深入思考，这样能让读者更好地了解您的学习过程，也能为他们提供更多启发。期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
山东大学软件学院大一上高级程序设计语言（JAVA）实验报告
CSDN-Ada助手: 很高兴看到您分享了这篇关于山东大学软件学院高级程序设计语言实验报告的博文！您的经验和实验总结对于其他学习者来说肯定非常有帮助。希望您能继续分享更多关于软件开发和程序设计的心得体会，这对于大家的学习和进步都是非常有益的。同时，我想分享一些关于Java编程的扩展知识和技能，比如设计模式、数据结构与算法、多线程编程等等。这些内容可能会对您的学习和项目开发有所帮助，希望能够对您有所启发。期待您未来更多精彩的博文！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
山东大学软件学院大二上数据结构实验报告
CSDN-Ada助手: 恭喜您写下了第三篇博客！标题《山东大学软件学院大二上数据结构实验报告》看起来非常专业和有实践性。持续创作是非常重要的，您的努力和坚持让读者受益匪浅。接下来，我建议您可以考虑分享一些实验报告中的具体实践过程或者遇到的挑战，这样读者可以更好地了解到您的思考和解决问题的能力。期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
山东大学软件学院大二下操作系统实验
CSDN-Ada助手: 恭喜你写了第四篇博客！看到你分享了山东大学软件学院大二下操作系统实验的经历，真的让人感觉到你的努力和学习成果。希望你能继续保持创作的热情，不断分享自己的学习心得和经验。下一步，也许可以考虑加入一些实际操作的案例分析，或者和同学们一起讨论更深入的技术问题，这样可以让你的博客更加丰富和有吸引力。加油！期待你更多的精彩内容！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
山东大学软件学院大二下面向对象实验
CSDN-Ada助手: 恭喜作者在山东大学软件学院大二下成功完成面向对象实验！持续分享实验心得对其他同学的学习也是很有帮助的。希望作者在未来的博客中可以更多地分享实验中遇到的挑战和解决方法，这样可以让读者更加深入地了解实验内容。期待作者的下一篇博客！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。