指令微调数据集整理

开源指令数据集

斯坦福数据

斯坦福52K英文指令数据:https://github.com/tatsu-lab/stanford_alpaca
52K 条指令中的每一条都是唯一的,答案由text-davinci-003模型生成得到的。

斯坦福52K中文指令数据:https://github.com/carbonz0/alpaca-chinese-dataset
与原始alpaca数据json格式相同,数据生成的方法是机器翻译和self-instruct。

斯坦福52K中文指令数据:https://github.com/hikariming/alpaca_chinese_dataset
经过人工精调的中文对话数据集,加入除了alpaca之外的其他中文聊天对话 人工微调,部分并不中文化的问题,我们将重新询问chatgpt或文心一言,重新获取回答并覆盖掉alpaca的回答.

基于GPT4的斯坦福英文数据及中文数据
基于GPT4生成的斯坦福52K指令数据,后用ChatGPT翻译得到的中文数据:https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM

链家数据

BELLE Group Dataset:https://huggingface.co/datasets?sort=downloads&search=BELLE+Group
链家基于ChatGPT用self-instruct生成的中文指令数据集,其中还包括中文数学题数据和多轮对话数据。由于数据是模型生成的,未经过严格校验!

BELLE项目生成的中文指令数据:https://huggingface.co/datasets/YeungNLP/firefly-train-1.1M
生成方式基于种子prompt,调用openai的api生成中文指令。包含了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 。数据分布如下图所示:
在这里插入图片描述
https://huggingface.co/datasets/BelleGroup/train_0.5M_CN
包含约50万条由BELLE项目生成的中文指令数据。

多轮对话:https://huggingface.co/datasets/BelleGroup/multiturn_chat_0.8M

Baize(基于少量种子问题的对话数据)

Baize:使用少量“种子问题”,让 ChatGPT 自己跟自己聊天,并自动收集成高质量多轮对话数据集;加州大学圣迭戈分校(UCSD)与中山大学、MSRA合作团队把使用此法收集的数据集开源。
https://github.com/project-baize/baize-chatbot

垂直领域数据集

医疗领域的英文数据

chatDoctor:https://github.com/Kent0n-Li/ChatDoctor
HealthCareMagic-100k:来自 HealthCareMagic.com的患者和医生之间的 100k 真实对话。

icliniq-10k:来自icliniq.com的 10k 患者和医生之间的真实对话。

5K生成数据:5k 从 ChatGPT生成的GenMedGPT-5k和疾病数据库生成患者和医生之间的对话。

医疗领域的中文数据

Med-ChatGLM:https://github.com/SCIR-HI/Med-ChatGLM/tree/main/data
通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集。

法律领域中文数据

中国法律数据资源,由上海交大收集和整理:https://github.com/pengxiao-song/awesome-chinese-legal-resources

COIG数据集(可商用的中文数据集)

https://hub.baai.ac.cn/view/25750
第一期总共发布了 5 个子数据集,包括翻译指令、考试指令、人类价值观对齐指令、反事实修正多轮聊天、Leetcode指令,总计 191k 数据,聚焦中文语料、数据类型多样、经过了人工质检与修正、数据质量可靠,而且可以商用。
论文标题:
Chinese Open Instruction Generalist: a Preliminary Release
论文机构:
北京智源人工智能研究院等
论文链接:
https://arxiv.org/pdf/2304.07987.pdf
数据链接:
https://huggingface.co/datasets/BAAI/COIG

其他相关数据集还可参考:https://github.com/FreedomIntelligence/InstructionZoo

  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
chatglm 微调数据集是为了提高聊天机器人 ChatGPT 的性能和效果。微调数据集是指通过在 ChatGPT 上训练的对话数据,针对特定任务或领域进行进一步的训练和优化。 微调数据集的过程通常包括以下步骤: 1. 收集数据:根据特定任务或领域的需求,收集对应的对话数据集。这些对话可以是真实用户和机器人之间的交互,也可以是专门设计的模拟对话。 2. 数据清洗:对收集到的对话数据进行清洗,去除不符合要求的数据,比如噪音、重复或者无效的对话。 3. 标记对话:为了进一步提高机器人的回答质量,可以手动标记一些对话中的问题和回答,以提供额外的监督信息。 4. 模型微调:使用微调数据集ChatGPT 进行训练。微调的目标是调整模型的权重,使其能够更好地适应特定的任务或领域,并生成更准确和有用的回答。 5. 性能评估:在微调过程中,需要使用一些评估指标来衡量模型的性能和效果。常见的评估指标包括准确率、回答质量和用户满意度等。如果模型性能不佳,可以根据评估结果进行进一步的调整和优化。 6. 迭代训练:根据评估结果不断迭代微调过程,以逐步提升模型的性能和效果。 通过对 ChatGPT 进行微调数据集,可以使其更好地理解特定的对话任务或领域,提供更准确和个性化的回答。微调数据集的过程是一个不断迭代和优化的过程,需要结合领域知识和人工智能技术的应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值