我们组的项目是基于大模型的知识问答教育系统,我在前期的任务是数据采集和处理清洗,以便于构建数据集训练大模型。
基于调查研究,我对于数据收集的关键点做出了以下归纳。
-
准确性:确保数据来源可靠,内容准确无误。错误的信息会导致模型输出错误答案,影响用户体验和教育效果。
-
更新性:确保数据是最新的,特别是对于动态变化的领域,如科技、法律等。
-
教育层次:覆盖从基础教育到高等教育的内容,适应不同学习阶段的用户需求。
-
结构化数据:优先选择结构化数据(如数据库、表格),便于处理和分析。
-
隐私保护:确保用户数据的匿名化处理,避免泄露个人信息。
-
合规性:遵守数据保护法律法规,如GDPR等,确保数据收集和使用过程中的合法合规性。
在开始的时候,我准备从百度百科、csdn等知识网站上收集数据,但是我发现这些网站上的数据质量良莠不齐,有的甚至有常识性错误,难以在爬取的时候进行分辨;并且这些数据的格式不一致,在后期处理的时候会造成麻烦,于是放弃。
然后我找到了Hugging Face 的 Datasets 库,这个库提供了大量预构建的数据集,涵盖了广泛的任务和领域,包括文本分类、情感分析、机器翻译、问答、对话系统等。这些数据集经过整理和优化,便于用户直接使用。这个库还可以通过简单的 API 调用轻松下载和加载数据集,无需手动下载和处理数据文件,比较方便。
于是我决定在这里进行数据的收集。因为我们的项目是问答系统,所以我筛选了可能用得到的QA数据集。以下是我认为能用到的数据集,供给大模型训练。
医疗:https://huggingface.co/datasets/lavita/medical-qa-datasets?row=15
https://huggingface.co/datasets/blinoff/medical_qa_ru_data?row=7
https://huggingface.co/datasets/medalpaca/medical_meadow_medqa
中医:https://huggingface.co/datasets/FreedomIntelligence/huatuo_knowledge_graph_qa
https://huggingface.co/datasets/FreedomIntelligence/huatuo_encyclopedia_qa/viewer/default/train?p=3624&row=362400
中文综合:https://huggingface.co/datasets/m-a-p/COIG-CQIA
博客节目:https://huggingface.co/datasets/wavpub/JinJinLeDao_QA_Dataset
哲学:https://huggingface.co/datasets/sayhan/strix-philosophy-qa/viewer/default/train?p=1337&row=133777
心理健康:https://huggingface.co/datasets/Amod/mental_health_counseling_conversations?row=7
小学数学:https://huggingface.co/datasets/microsoft/orca-math-word-problems-200k
计算机相关
数学:https://huggingface.co/datasets/math-ai/StackMathQA
python编程:https://huggingface.co/datasets/lucasmccabe-lmi/codex_math_qa_alpaca_style/viewer/default/train?p=280&row=28004
https://huggingface.co/datasets/flytech/python-codes-25k
sql编程:https://huggingface.co/datasets/b-mc2/sql-create-context
代码指令:https://huggingface.co/datasets/m-a-p/CodeFeedback-Filtered-Instruction?row=38
https://huggingface.co/datasets/m-a-p/Code-Feedback/viewer/default/train?p=663&row=66310
论文NLP:https://huggingface.co/datasets/allenai/qasper?row=0
stackExchange:https://huggingface.co/datasets/lvwerra/stack-exchange-paired?row=16
综合包括computer science:https://huggingface.co/datasets/MMMU/MMMU/viewer/Computer_Science/test?row=2
https://huggingface.co/datasets/cais/mmlu/viewer/college_computer_science?row=29
https://huggingface.co/datasets/ikala/tmmluplus/viewer/computer_science/test
然后我在kaggle网站上找到了一个与我们项目适配程度较大的数据集,是关于计算机理论知识的问答集:
https://www.kaggle.com/datasets/mujtabamatin/computer-science-theory-qa-dataset
结合做大模型相关工作的同学的反馈,我选取了上述中的几个数据集,整理成了csv文件,以便于后续的数据清洗等工作。