中文数据集集合

数据集市场

订阅地址:一键直达

image.png

中文医学指令精调数据集

简介:医学知识库围绕疾病、药物、检查指标等构建,字段包括并发症,高危因素,组织学检查,临床症状,药物治疗,辅助治疗等,可以利用该数据集对ChatGLM或者LLaMA模型进行训练,提高模型在医疗领域的问答效果 订阅地址:https://computenest.console.aliyun.com/dataset/service/service-b23ee2aeb8fa4784bd31/detail/cn-hangzhou 示例数据

{"context": "问题:患者反复出现反酸、烧心等症状,考虑为Barrett食管,需要注意哪些并发症?\n回答: ", "target": "根据知识,Barrett食管的并发症包括消化性溃疡、反流食管炎、胃肠道出血、贫血、肿瘤等,需要引起注意。"}
{"context": "问题:两岁女童出现发热、呼吸浅而快等症状,经过检查诊断为毛细支气管炎,治疗措施是什么?\n回答: ", "target": "给予鼻导管吸氧等方式进行支持治疗,并视情况使用抗生素治疗"}
{"context": "问题:患者赵先生最近出现恶心、呕吐等症状,经过检查发现患有胆石性胰腺炎,是否会影响生育和生活?\n回答: ", "target": "胆石性胰腺炎对于生育和生活的影响并不大,但是如果没有得到及时和有效的治疗,病情可能会不断恶化,对患者的生活和健康造成更严重的影响。因此,需要及时进行治疗,并根据医生的建议进行饮食和生活方面的调整,以保持良好的身体状态和生活质量。"}

知乎问题答案数据集

简介:知乎问题答案,一个问题,多个答案,根据赞同数量排序 订阅地址:https://computenest.console.aliyun.com/dataset/service/service-63a78222b0d1499ca75c/detail/cn-hangzhou 示例数据

image.png

CMMLU - 中文多任务语言理解评估

简介:CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。 订阅地址:https://computenest.console.aliyun.com/dataset/service/service-007b4d87338548279dba/detail/cn-hangzhou 示例数据:数据集中的每个问题都是一个多项选择题,有4个选项,只有一个选项是正确答案。数据以逗号分隔的.csv文件形式存在

QuestionABCDAnswer
0商业伦理学最早出现在英国法国美国意大利C
1伦理学的核心是宗教伦理学描述伦理学元伦理学规范伦理学D
2下列不属于人的基本权利的时人格平等独立生命自由B
3关税的课税客体是进出境的货物消费者海关进出口商A
4区域经济从本质上讲是商品经济一体化经济信用经济市场经济D

firefly-train-1.1M

简介:收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万本数据应用于项目:Firefly(流萤): 中文对话式大语言模型 ,训练后得到的模型firefly-1b4 订阅地址:https://computenest.console.aliyun.com/dataset/service/service-b16c8bb46bb44db9b49b/detail/cn-hangzhou 示例数据

{"kind": "NLI", "input": "自然语言推理:\n前提:家里人心甘情愿地养他,还有几家想让他做女婿的\n假设:他是被家里人收养的孤儿", "target": "中立"}
{"kind": "Summary", "input": "在上海的苹果代工厂,较低的基本工资让工人们形成了“软强制”的加班默契。加班能多拿两三千,“自愿”加班成为常态。律师提示,加班后虽能获得一时不错的报酬,但过重的工作负荷会透支身体,可能对今后劳动权利造成不利影响。\n输出摘要:", "target": "苹果代工厂员工调查:为何争着“自愿”加班"}
{"kind": "Couplet", "input": "上联:把酒邀春,春日三人醉\n下联:", "target": "梳妆佩玉,玉王点一娇"}
{"kind": "MusicComment", "input": "生成音乐热评", "target": "1、感謝大家支持!然後就是Jane的人聲真的太好聽了,remix很自然就做出來了哈哈。為了讓人聲情感突出,這版本並沒有用太多搶耳的音色,只保留了一點點自己bass風格的律動感,然後我拿起一把Fender吉他就已經是主旋律了。Anyway , 超榮幸能參與這張專輯的! Enjoy!\n2、这首\n有种退一步现世安稳,进一步天地广阔的感觉\n好适合拿去当剪辑的BGM\n在成长逐渐变得温柔又坚强的那种"}

数据分布如下

image.png

维基百科 - 中文

简介:104万个词条(1,043,224条; 原始文件大小1.6G,压缩文件519M;数据更新时间:2019.2.7) ,可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。 订阅地址:https://computenest.console.aliyun.com/dataset/service/service-90c10fd0845e464daf17/detail/cn-hangzhou 示例数据

百科类问答 - 中文

简介:含有150万个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别,其中频率达到或超过10次的类别有434个。 可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。 订阅地址:https://computenest.console.aliyun.com/dataset/service/service-c0d46ce948b44f0f99d2/detail/cn-hangzhou 示例数据

社区问答类 - 中文

简介:含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个【话题】,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。 用途:

1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据

2)训练话题预测模型:输入一个问题(和或描述),预测属于话题。

3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、

  问题与答案的相关性,找到最好的答案。

4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。

5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。

订阅地址:https://computenest.console.aliyun.com/dataset/service/service-da8a5b4ed4994ddc8890/detail/cn-hangzhou 示例数据

中英文翻译数据集

简介:中英文平行语料520万对。每一个对,包含一个英文和对应的中文。中文或英文,多数情况是一句带标点符号的完整的话。 订阅地址:https://computenest.console.aliyun.com/dataset/service/service-d3ed7dc9e15e4e3f9d72/detail/cn-hangzhou 示例数据

新闻语料 - 中文

简介:包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。新闻内容跨度:2014-2016年 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料;也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。 订阅地址:https://computenest.console.aliyun.com/dataset/service/service-7f394b9c9b874dd4b3fc/detail/cn-hangzhou 示例数据

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值