AI巨头争相与Reddit合作：为何一个古老的论坛成为AI训练的“宝藏”？

新加坡内哥谈技术

已于 2024-05-25 22:17:25 修改

阅读量997

点赞数 16

文章标签：人工智能语言模型自然语言处理

于 2024-05-24 22:56:55 首次发布

本文链接：https://blog.csdn.net/2301_79342058/article/details/139186220

版权

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

在今年二月，谷歌宣布与Reddit达成每年6000万美元的协议，允许谷歌使用Reddit的数据来训练其AI系统。上周，OpenAI也宣布了类似的合作协议，无疑也具有相当的商业价值。

为何全球最强大的AI公司会如此热衷于一个传统用户眼中充满偏见和嘲讽的老旧论坛？这背后的原因与当今大型语言模型（LLM）的训练方式息息相关。因其独特的设置，Reddit恰好为LLM生成了完美的训练数据。

这家成立已有29年的公司正在借助这一波兴趣，进入了巨大的盈利浪潮——尽管这对用户而言代价不小。

LLM训练数据的需求

为了继续进步，像OpenAI的ChatGPT和谷歌的Gemini这样的LLM需要持续摄入大量的书面语言数据。尽管这些模型已经从维基百科、几乎所有已出版的书籍、公开网站以及任何可公开获得的语言数据中获得了惊人的能力，但这些数据并未完全捕捉到人类日常使用的口语化语言。

这也是为什么像ChatGPT和Gemini这样的系统的输出往往显得僵硬和过于正式。为了让AI更像人类，LLM迫切需要更多真实的人类写作。然而，很多这样的写作都被锁在私人空间中，比如WhatsApp对话、短信、个人邮件等。即使AI公司能够获得这些数据，它们也会面临另一个问题：大多数口语化写作未经过滤和注释。

相比之下，出版的书籍等至少经过了一定的筛选和编辑，质量有保证。而口语化写作则没有这样的过程，很难评估其质量和连贯性。

Reddit的独特价值

Reddit的设置巧妙地解决了这些问题。作为一个匿名平台，用户可以快速创建账户，用化名发布信息。这种匿名性鼓励了随意、往往充满嘲讽和未经过滤的写作。更重要的是，Reddit还有一个独特的投票系统，用户可以对每个帖子进行评价，优秀的帖子会被顶上去，而无用的垃圾信息、营销内容和极端观点会被埋没或删除。

这种投票系统使得Reddit的数据在AI训练中具有无与伦比的价值。Reddit不仅提供了丰富的口语化写作，还内置了一个评价这些写作质量的系统。

Reddit的盈利风潮

由于其数据的完美性，Reddit正从大公司的AI投资中获得巨大收益。社交网络通过内容许可交易积累了数亿美元的收入，这帮助它在今年早些时候成功上市，并可能吸引更多投资者。随着LLM的商品化，Reddit也有可能创建自己的LLM，凭借其丰富的训练数据，比大公司竞争对手以更低的成本构建模型。

潜在风险

尽管有巨大的机会，AI公司对Reddit的痴迷也带来了严重的风险。Reddit之所以成功，是因为用户认为它是一个分享真实、不加修饰意见的地方。但这种匿名性也意味着数据不具有代表性，充满偏见和不准确的信息。AI公司可能会利用Reddit的投票数据来展示什么是受欢迎的，而不是事实。

LLM擅长检测模式，这些系统可能会从Reddit学习到偏见、分裂言论和网络喷子的模式，并在其他上下文中重复这些模式。这些偏见难以被检测到，甚至连系统的创建者也难以发现。

未来的解决方案

解决这些偏见需要更多的数据，而不是更少的数据，也需要更好地注释现有的、更少极端的口语化对话数据。更多来自不同背景和观点的数据将有助于改进LLM的训练。然而，企业如谷歌和OpenAI从哪里获得这种数据仍不明确。Slack等公司的开放数据训练引发了用户的愤怒，使得AI公司面临两难境地。

尽管如此，AI公司仍愿意为Reddit的数据支付数亿美元，因为这是他们目前能找到的最佳选择。

新加坡内哥谈技术

关注

16
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
AI巨头争相与Reddit合作：为何一个古老的论坛成为AI训练的“宝藏”？

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/在今年二月，谷歌宣布与Reddit达成每年6000万美元的协议，允许谷歌使用Reddit的数据来训练其AI系统。上周，OpenAI也宣布了类似的合作协议，无疑也具有相当的商业价值。
复制链接

扫一扫