中文大语言模型最好的语料库竟然是它：弱智吧！种什么样的种子，开什么样的花！

最新推荐文章于 2024-06-17 07:30:25 发布

木易AI信息差

最新推荐文章于 2024-06-17 07:30:25 发布

阅读量2.6k

点赞数 36

文章标签：人工智能 chatgpt gpt ai OpenAI

本文链接：https://blog.csdn.net/weixin_40774379/article/details/137388137

版权

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

语料库，在LLM大语言模型领域指用于训练和评估这些模型的大规模文本数据集合。种什么样的种子，开什么样的花，语料库对于模型来说就是这样的种子。那么，如果问：对于中文大模型来说，最好的语料库在哪里？是百度文库，百度百科，小红书，知乎，还是抖音，头条，微信？都不是。根据最近的一篇很有意思的名为《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》论文指出，最好的中文语料库来自于：弱智吧。

什么是弱智吧？

弱智吧，高大上的说，是一个充满创意、幽默和自由表达的网络社区，用人话说，是一个充满讽刺和自嘲风格的论坛，最早起源于百度贴吧。在弱智吧，用户通过发布和评论各种看似荒谬、无厘头或极具创意的内容来娱乐自己和他人。弱智吧的内容通常包括搞笑图片、段子、搞笑视频、奇特的生活经历分享等。弱智吧曾有一个关于人工智能的贴：什么工作都可能会被人工智能取代，但弱智不会。

弱智吧有一个不成文的规定，那就是稍微正常一点的问题/言论就会被立即删除，所以留下的都是经典语录...

分享一些网友们的总结，小伙伴们感受一下：

生活就是在米缸里种玫瑰。
熬夜，是对昨天做辅助延长线。
钱都流向不缺钱的人，爱都流向不缺爱的人，为什么苦都流向了我。
前程似锦，怪不得我一个穷人买不起。
苦难，是生命的防沉迷系统。
每个人都在赚钱，那么谁在亏钱？
工人罢了工，所以成了人。
敬老院的新人都是老人，这世界的大人都是小人。
在禁欲的寺庙里求姻缘，向不出门的方丈问人生该往何处。
道德绑架的人为什么要绑架道德，自己没有吗？
导盲犬禁止入内，是给盲人看的，还是给导盲犬看的？
每天吃一粒感冒药，还会感冒吗？
吃止痛药去打架，算开挂吗？
被门夹过的核桃，还能补脑吗？

这看似无厘头的话语但却又拥有丝丝哲学的气息，网友们戏称：弱智吧里没有弱智，知乎里没有知识（仅是戏言，非真实）。

弱智吧地址：https://tieba.baidu.com/f?kw=%E5%BC%B1%E6%99%BA&ie=utf-8

这篇论文讲了什么？

在LLM大语言模型研究与应用领域，中文大模型的发展一直面临着独特的挑战。由于中文语言的结构复杂性和文化背景的多样性，现有的以英文为中心的语料库往往难以满足中文模型的需求。为了提升中文大模型的性能，研究人员一直在探索更符合中文特性的高质量语料库。

这篇论文由来自中国科学院深圳先进技术研究院、自动化研究所、北京大学、中国科学技术大学等多所学术机构的研究人员共同完成。研究团队针对中文大语言模型的发展挑战，提出了一个新的高质量中文指令调优数据集COIG-CQIA。该数据集通过精心筛选和处理来自中文互联网的人工编写语料，旨在更好地反映真实世界的中文用户互动模式。

通过在不同子集上训练和评估各种规模的模型，研究结果表明，COIG-CQIA能够有效提升模型在理解和执行复杂中文指令方面的能力，尤其在人类评估和安全基准测试中显示出显著的性能提升。论文的核心发现强调了高质量语料库在训练中文大模型中的重要作用，揭示了数据质量与模型性能之间的关系。

研究是如何进行的？

研究团队通过从中文互联网的多个高质量来源搜集数据，并经过严格筛选和清洗，构建出COIG-CQIA数据集。该数据集涵盖了问答社区、维基知识平台、考试资料和现有NLP数据集等，确保了内容的多样性和真实性的同时更好地反映了中文用户的实际互动模式。在此基础上，研究团队利用数据集的不同子集，对各种规模的神经网络模型进行了训练和评估，采用了包括迁移学习、微调等技术。

收集数据：
- 研究团队从中文互联网的多个来源搜集了大量人工编写的文本数据，确保了数据的多样性和丰富性。
- 数据来源包括但不限于问答社区（如知乎、思否、豆瓣、小红书、弱智吧等），维基类知识平台（如百度百科），各类考试资料（如中高考试题、专业资格考试题目），以及现有的NLP数据集。
- 收集过程中，注重选取反映真实中文用户互动模式的数据，以增强模型对真实世界语言使用的理解。
数据筛选：
- 收集到的原始数据经过了一系列严格的筛选，以剔除低质量或不相关的信息，筛选标准包括内容的相关性、准确性、完整性和中立性，确保最终数据集的高质量。
- 筛选过程中还进行了数据清洗，如去除重复内容、纠正明显错误、标准化格式等，以提高数据的一致性和可用性。
- 经过筛选和处理，形成了COIG-CQIA数据集。

模型训练：
- 使用COIG-CQIA的不同子集对一系列不同规模的模型进行了训练。训练过程中，采用当前先进的训练技术，如迁移学习、微调和增量学习等，以提高模型的学习效率和性能。
- 评估模型时，不仅考虑了模型在标准任务上的表现，如问答、文本生成等，还特别关注了模型在安全性和可靠性方面的表现。
- 通过对比不同子集训练出的模型性能，研究团队分析了数据集的各个部分对模型能力的影响。

关于指令调优

COIG-CQIA是一个指令调优数据集。那么，什么是指令调优？指令调优（Instruction Tuning）是一种针对大语言模型的训练方法，目的是让模型更好地理解和执行用户给出的具体指令。简单来说，就像教一个孩子听懂并按照大人的指示去做事一样，指令调优就是教计算机听懂并执行我们的命令。

指令调优数据集，就是一个包含了很多“指令-响应”对的集合。每个“指令-响应”对都包括了一个指令（比如一个问题或者一个任务要求）和一个对应的响应（比如答案或者完成任务的结果）。这样的数据集用来训练语言模型，使其能够更准确地理解指令的意思，并给出恰当的回应。

我们需要指令调优数据集，是因为在与LLM对话时，我们希望AI能够更聪明地理解我们的意图，并提供有用的帮助。通过使用指令调优数据集来训练模型，我们可以让AI更好地理解人类的自然语言，更准确地执行我们的命令，从而提高AI的实用性和交互体验。

COIG-CQIA就是这样一个专门为中文环境设计的指令调优数据集，它通过收集和筛选大量的中文文本数据，帮助训练出能够更好地理解和使用中文的大型语言模型。

研究得出了什么结论？

性能测试评估

性能测试是基于Yi-6B和Yi-34B两种模型在多个数据集上训练后进行的（Yi-6B和Yi-34B是零一万物发布的两种不同规模的开源大模型）。评估是通过BELLE-EVAL平台使用GPT-4进行的。

从下面这张Yi-6B的研究结果表格可以看到，弱智吧（Ruozhiba）所在的子集在多个单项分数中测评结果位列第一，有的甚至可以说是遥遥领先，包括开放式问答（Open QA）、头脑风暴（Brainstorming）、分类（Classification）、生成（Generation）、封闭式问答（Closed QA）和编码（Code）任务。而在更大规模的模型Yi-34B中，弱智吧更加亮眼，几乎获得了所有领域的第一名，远远超过了知乎和小红书。

而在接下来的SafetyBench安全性能测评中，弱智吧的表现再一次令人眼前一亮，超过了其他数据子集以及GPT-3.5！

对于弱智吧的表现，论文作者也进行了分析：使用弱智吧数据集训练的模型在逻辑推理方面有所增强。这可能是因为弱智吧中的帖子往往包含复杂的逻辑陷阱和双关语，这些内容对于锻炼模型的逻辑推理和问题解决能力很有帮助。

Interestingly, Ruozhiba ranks second on average across all subsets. We conjecture this is because it may enhance the model’s logical reasoning ability, thereby benefiting most of the instruct-following tasks.

最后，附上这篇论文的原文地址：

https://arxiv.org/pdf/2403.18058.pdf

精选推荐

都读到这里了，点个赞鼓励一下吧，小手一赞，年薪百万！😊👍👍👍。关注我，AI之路不迷路，原创技术文章第一时间推送🤖。

木易AI信息差

关注

36
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
中文大语言模型最好的语料库竟然是它：弱智吧！种什么样的种子，开什么样的花！

问：对于中文大模型来说，最好的语料库在哪里？是百度文库，百度百科，小红书，知乎，还是抖音，头条，微信？都不是。根据最近的一篇很有意思的名为《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》论文指出，最好的中文语料库来自于：弱智吧。
复制链接

扫一扫