我整理的面向大模型的高质量语料集!

98fb094c4501bdf8034a9eb62e61d7df.jpeg

自己一直在做企业内部的垂类大模型,但随着运营深入,发现光有企业内部的领域数据还不足以微调出一个健壮的领域大模型,因为泛化能力比较弱。

在领域数据中融入公共数据进行训练是公认的提升领域大模型泛化能力的方法,下面是我整理的面向大模型的六大类高质量语料集,共涉及20多个网上公开数据集(附有网址),希望对你有所帮助。

89eede21c7c90ab23e7d80deb2a55e10.png

一、文本数据集

1、维基百科

  • 简介

    免费的多语言协作在线百科全书,内容覆盖广泛,由志愿者社区编写和维护。

  • 用途

    用于训练语言模型的基础知识库。

  • 链接

    https://dumps.wikimedia.org/backup-index.html

  • 范例

    Title: Machine Learning 

    Content:Machine learning (ML) is the study of computer algorithms that improve automatically through experience. It is seen as a part of artificial intelligence. Machine learning algorithms build a model based on sample data, known as "training data", in order to make predictions or decisions without being explicitly programmed to do so.

2、BooksCorpus

  • 简介

    包含大量书籍文本,主要用于训练语言模型的故事讲述和反应能力。

  • 用途

    语言模型训练。

  • 链接

    https://paperswithcode.com/dataset/bookcorpus

  • 范例:

    Title: The Adventures of Sherlock Holmes

    Content: To Sherlock Holmes she is always the woman. I have seldom heard him mention her under any other name. In his eyes she eclipses and predominates the whole of her sex.

3、Common Crawl

  • 简介

    包含从2008年至今抓取的大量网页数据。

  • 用途

    通用语言模型训练。

  • 链接

    https://commoncrawl.org/

  • 范例

    URL: http://example.com/article

    Content: The global economy is facing a period of uncertainty. Various factors including geopolitical tensions and market volatility are contributing to this instability.

4、arXiv

  • 简介

    ArXiv 是一个免费的分发服务和开放获取的网站,包含物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学以及经济学等领域的2,235,447篇学术文章。美国国家卫生研究院有各种生物医学和行为研究领域的论文。

  • 用途

    学术论文数据集,用于训练语言模型。

  • 链接

    https://www.kaggle.com/Cornell-University/arxiv

  • 范例

    Title: A Survey on Machine Learning

    Abstract: This paper provides a comprehensive survey of the current state of machine learning research. We cover various algorithms and their applications in different domains.

5、百度百科

  • 简介

    中文在线百科全书,内容覆盖广泛。

  • 用途

    中文语言模型训练。

  • 链接: 

    https://baike.baidu.com/

  • 范例

    Title: 机器学习

    Content: 机器学习是一种通过数据和算法来改进性能和预测结果的人工智能方法。它包括监督学习、无监督学习和强化学习等类型。

6、RealNews

  • 简介

    一个英文新闻文章数据集,包含大约130GB的文本数据。

  • 用途

    通用语言模型训练。

  • 链接

    https://paperswithcode.com/dataset/realnews

  • 范例

    {"title":"Reynolds High School tragedy: more laws are not the answer","text":"by In the news\nby Dan Lucas\nOn Tuesday morning a 15-year-old killer murdered fellow student Emilio Hoffman, age 14, and wounded a teacher at Reynolds High School in Troutdale, Oregon. The killer brought an AR-15 type rifle, a semi-automatic pistol and enough ammunition to do far more harm......","summary":null,"authors":["In The News"],"publish_date":"06-13-2014","status":"success","domain":"oregoncatalyst.com","warc_date":"2016-12-11T13:48:31Z","split":"train"}

二、代码数据集

1、GitHub

  • 简介

    一个大型的开源代码库,包含来自 GitHub 上的开源项目的代码和相关文档。

  • 用途

    训练代码生成和理解模型。

  • 链接

    https://www.kaggle.com/github/github-repo-dataset

  • 范例

    Repository: example-repo

    File: main.py

    Content:

    def greet(name):

    print(f"Hello,

### 大语言模型中文数据资源 对于构建和训练大语言模型而言,中文数据的选择至关重要。由于AI大模型语料库的来源相当多元化,主要包括网络数据,如新闻报道、社交媒体内容等,这些数据提供了丰富的语言实例[^1]。 #### 开源平台上的中文数据 多个开源平台上可以找到适合于训练大语言模型的中文数据: - **哈工大LTP** 提供了一系列自然语言处理工具包及其配套使用的语料库,其中包含了多种类型的汉语分词、词性标注、命名实体识别等任务所需的高质量语料。 - **Tsinghua NLP Group** 清华大学自然语言处理实验室也开放了一些重要的中文文本数据库,比如人民日报语料库,它涵盖了大量正式出版物中的文章片段,有助于提高机器理解书面表达的能力。 - **CLUE Benchmark** 是由阿里云联合多家机构发布的面向中文的任务型对话系统评测基准之一,里面不仅有大规模的真实场景下的会话记录作为测试样本,还附带了详细的标签信息以便评估性能优劣。 #### 获取方式 为了方便研究人员下载利用上述提到的各种公开可用的数据合,通常可以通过访问各个项目主页来查找具体的获取方法说明文档或者直接通过API接口请求特定格式版本的内容。部分网站可能还需要注册账号并通过一定的审核流程才能获得完整的权限去读取敏感度较高的子文件。 ```python import requests def download_dataset(url, save_path): response = requests.get(url) with open(save_path, 'wb') as file: file.write(response.content) download_dataset('http://example.com/dataset.zip', './dataset.zip') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

傅一平

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值