项目实训个人周报1

我们组的项目是基于大模型的知识问答教育系统,我在前期的任务是数据采集和处理清洗,以便于构建数据集训练大模型。

基于调查研究,我对于数据收集的关键点做出了以下归纳。

  • 准确性:确保数据来源可靠,内容准确无误。错误的信息会导致模型输出错误答案,影响用户体验和教育效果。

  • 更新性:确保数据是最新的,特别是对于动态变化的领域,如科技、法律等。

  • 教育层次:覆盖从基础教育到高等教育的内容,适应不同学习阶段的用户需求。

  • 结构化数据:优先选择结构化数据(如数据库、表格),便于处理和分析。

  • 隐私保护:确保用户数据的匿名化处理,避免泄露个人信息。

  • 合规性:遵守数据保护法律法规,如GDPR等,确保数据收集和使用过程中的合法合规性。

在开始的时候,我准备从百度百科、csdn等知识网站上收集数据,但是我发现这些网站上的数据质量良莠不齐,有的甚至有常识性错误,难以在爬取的时候进行分辨;并且这些数据的格式不一致,在后期处理的时候会造成麻烦,于是放弃。

然后我找到了Hugging Face 的 Datasets 库,这个库提供了大量预构建的数据集,涵盖了广泛的任务和领域,包括文本分类、情感分析、机器翻译、问答、对话系统等。这些数据集经过整理和优化,便于用户直接使用。这个库还可以通过简单的 API 调用轻松下载和加载数据集,无需手动下载和处理数据文件,比较方便。

Hugging Face 的 Datasets 库.png

于是我决定在这里进行数据的收集。因为我们的项目是问答系统,所以我筛选了可能用得到的QA数据集。以下是我认为能用到的数据集,供给大模型训练。

医疗:https://huggingface.co/datasets/lavita/medical-qa-datasets?row=15

​ https://huggingface.co/datasets/blinoff/medical_qa_ru_data?row=7

​ https://huggingface.co/datasets/medalpaca/medical_meadow_medqa

中医:https://huggingface.co/datasets/FreedomIntelligence/huatuo_knowledge_graph_qa

​ https://huggingface.co/datasets/FreedomIntelligence/huatuo_encyclopedia_qa/viewer/default/train?p=3624&row=362400

中文综合:https://huggingface.co/datasets/m-a-p/COIG-CQIA

博客节目:https://huggingface.co/datasets/wavpub/JinJinLeDao_QA_Dataset

哲学:https://huggingface.co/datasets/sayhan/strix-philosophy-qa/viewer/default/train?p=1337&row=133777

心理健康:https://huggingface.co/datasets/Amod/mental_health_counseling_conversations?row=7

小学数学:https://huggingface.co/datasets/microsoft/orca-math-word-problems-200k

计算机相关

数学:https://huggingface.co/datasets/math-ai/StackMathQA

python编程:https://huggingface.co/datasets/lucasmccabe-lmi/codex_math_qa_alpaca_style/viewer/default/train?p=280&row=28004

​ https://huggingface.co/datasets/flytech/python-codes-25k

sql编程:https://huggingface.co/datasets/b-mc2/sql-create-context

代码指令:https://huggingface.co/datasets/m-a-p/CodeFeedback-Filtered-Instruction?row=38

​ https://huggingface.co/datasets/m-a-p/Code-Feedback/viewer/default/train?p=663&row=66310

论文NLP:https://huggingface.co/datasets/allenai/qasper?row=0

stackExchange:https://huggingface.co/datasets/lvwerra/stack-exchange-paired?row=16

综合包括computer science:https://huggingface.co/datasets/MMMU/MMMU/viewer/Computer_Science/test?row=2

​ https://huggingface.co/datasets/cais/mmlu/viewer/college_computer_science?row=29

​ https://huggingface.co/datasets/ikala/tmmluplus/viewer/computer_science/test

然后我在kaggle网站上找到了一个与我们项目适配程度较大的数据集,是关于计算机理论知识的问答集:

https://www.kaggle.com/datasets/mujtabamatin/computer-science-theory-qa-dataset

kaggle数据集.png

结合做大模型相关工作的同学的反馈,我选取了上述中的几个数据集,整理成了csv文件,以便于后续的数据清洗等工作。

csv文件.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值