LLM 驱动的合成数据生成、管理和评估

拉达曼迪斯II

于 2024-09-08 00:00:00 发布

阅读量777

点赞数 20

分类专栏： AIGC学习 AI创业文章标签：人工智能深度学习机器学习 chatgpt 大数据神经网络 AI写作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ms44/article/details/141924588

版权

AI创业同时被 2 个专栏收录

503 篇文章

订阅专栏

470 篇文章

订阅专栏

出现了三个关键要素：人类监督的必要性、用于训练数据创建的精心规划的数据拓扑和管道，以及旨在从语言模型中引出特定行为（例如高级推理）的数据。

介绍

在训练模型中，平衡数据数量和质量的挑战非常重要。大型语言模型 (LLM) 通过生成合成数据提供以数据为中心的解决方案。然而，最近的一项研究表明，该领域的研究缺乏统一的框架，并且仍然很肤浅。

本文在合成数据生成的通用工作流程中组织相关研究，强调现有的研究差距并提出未来的研究方向。

目标是引导学术界和商业界对 LLM 驱动的合成数据生成能力和应用进行更彻底的研究。

以上是 LLM 驱动的合成数据生成、管理和评估的分类。

小故事和 Phi-3

微软使用Tiny Stories训练 SLM 以及Phi-3模型的训练方式强调了数据设计对模型行为的影响，以及数据质量对于有效的模型学习至关重要。

LLM 使我们能够通过数据操作主动塑造模型的学习内容，大大提高模型训练的有效性和控制力。

截至 2024 年 6 月，Hugging Face 上有超过 300 个标记为合成的数据集。许多主流 LLM，例如 Alpaca、Vicuna、OpenHermes 2.5 和 Openchat 3.5 都利用高质量的合成数据进行训练。

人为干预

数据对于模型智能至关重要，如果没有人工监督就无法完全生成。

合成数据可能会引入噪音和有害信息，这可能会毒害模型并导致崩溃。

由于固有的偏见，LLM 无法自我纠正，可能会偏离预期目标。因此，一个用于注释和验证的人性化交互系统至关重要。目前，数据生产中的人机协作尚无标准化框架。

设计这种系统时，应充分了解人类的优势和局限性，并遵循以人为本的原则。

以上示例提示了数据合成、注释、多步骤生成和集成管道。

主要考虑因素包括：

确保 LLM 生成的信息的可读性和可解释性，以方便人类理解。
实施上游知识丰富或过滤，以优化人力资源利用并减少花在低价值任务上的时间。
添加引人入胜的交互功能，使数据处理任务更加有趣并吸引更广泛的受众。

在传统的众包注释中，工作人员会收到一本详细说明任务目的、数据解释和背景知识的代码本，以便更好地了解他们的工作。

同样，对于 LLM 驱动的数据生成，任务规范至关重要，可以包括角色扮演、格式澄清和知识增强。

语境

像这样的简单提示suppose you are a {xxx}可以通过设置正确的上下文来显著提高 LLM 的性能。这种方法让人想起了另一项研究，研究人员提出了一种新的角色驱动的数据合成方法，该方法使用大型语言模型 (LLM) 中的不同视角来创建不同的合成数据。

为了大规模支持这种方法，他们引入了Persona Hub，这是一个从网络数据中自动收集的10 亿个不同角色的集合。

忠诚

为了确保有效的监督，生成的数据必须在逻辑上和语法上连贯。

然而，大型语言模型 (LLM) 中的幻觉和肥尾知识分布等固有问题可能会引入大量噪音。这通常会导致事实错误、标签错误或内容不相关，尤其是在生成较长、复杂或特定领域的数据时。

多样性

多样性是指生成的数据的变化，例如文本长度、主题和写作风格的差异。

创建反映现实世界数据多样性的合成样本至关重要，有助于防止模型训练或评估期间的过度拟合和偏差。

然而，大型语言模型 (LLM) 固有的偏见往往导致内容单调、缺乏多样性，限制了其在下游任务中的实用性。

最后

合成数据的目的不是向目标模型注入知识，而是针对某些角色和特殊能力（如高级推理或任务分解）训练模型。

通过在结构良好的数据拓扑中结合强大的数据发现和数据设计实践，创建合成数据的过程变得更加高效、准确且符合现实需求。

这一基础层对于生成能够有效训练和验证机器学习模型的高质量合成数据至关重要。

拉达曼迪斯II

博客等级

码龄22年

572
原创

1万+
点赞

9218
收藏

6330
粉丝

关注

私信

热门文章

分类专栏

AI创业 503篇
AIGC学习 470篇
WebRTC 49篇
区块链 37篇
Unigine引擎深入研究 34篇
WebGPU 16篇
数据库管理工具 14篇
C/C++/CLI 21篇

最新评论

第二十七章视频推流细节
拉达曼迪斯II: 延时的问题，和所有环节都有关系。如果码率调整到非常低，延时小于100ms都没有问题。所以你的问题应该限定画质，大小，精度的情况下才能判断是否还能优化延时的空间。你可以从降低画质，提升带宽，提升网络品质，减少数据源准备，传递，编码环节减少时间。同时也可以在终端解码，显示，等环节。可以做的环节很多。但每个环节还能优化多少，需要你自行根据你的代码处理逻辑，数据类型来。
第二十七章视频推流细节
小星星·: 老哥，我用JanusGateway做服务器调用WebRTC sdk，推理桌面或者窗口, 使用浏览器端访问视频流，延时大约有400ms 使用谷歌浏览器推流，使用谷歌浏览器访问，延时大约200ms 据说，WebRTC协议，最低延时可以保持在100ms左右请问老哥，我从哪个方向考虑，可以将延时降低到100ms-200ms之间？
第二章流式整体架构
拉达曼迪斯II: 经验值
第二章流式整体架构
小星星·: 文章最后两个表格中，不是很理解。带宽3~5M，对应码率中低高分别是2.5Kbit, 1.5Kbit, 4.5Kbit 码率应该是比特率，也就是1秒钟对应的音视频比特数据量带宽单位是Mbit，是兆比特那么带宽=比特率 * 1.6 是怎么考虑的
第二十六章视频轨道和视频捕捉器
小星星·: 好的，谢谢作者无私奉献

大家在看

最新文章

2025

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

拉达曼迪斯II 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。