AI巨头争相与Reddit合作:为何一个古老的论坛成为AI训练的“宝藏”?

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

在今年二月,谷歌宣布与Reddit达成每年6000万美元的协议,允许谷歌使用Reddit的数据来训练其AI系统。上周,OpenAI也宣布了类似的合作协议,无疑也具有相当的商业价值。

为何全球最强大的AI公司会如此热衷于一个传统用户眼中充满偏见和嘲讽的老旧论坛?这背后的原因与当今大型语言模型(LLM)的训练方式息息相关。因其独特的设置,Reddit恰好为LLM生成了完美的训练数据。

这家成立已有29年的公司正在借助这一波兴趣,进入了巨大的盈利浪潮——尽管这对用户而言代价不小。

LLM训练数据的需求

为了继续进步,像OpenAI的ChatGPT和谷歌的Gemini这样的LLM需要持续摄入大量的书面语言数据。尽管这些模型已经从维基百科、几乎所有已出版的书籍、公开网站以及任何可公开获得的语言数据中获得了惊人的能力,但这些数据并未完全捕捉到人类日常使用的口语化语言。

这也是为什么像ChatGPT和Gemini这样的系统的输出往往显得僵硬和过于正式。为了让AI更像人类,LLM迫切需要更多真实的人类写作。然而,很多这样的写作都被锁在私人空间中,比如WhatsApp对话、短信、个人邮件等。即使AI公司能够获得这些数据,它们也会面临另一个问题:大多数口语化写作未经过滤和注释。

相比之下,出版的书籍等至少经过了一定的筛选和编辑,质量有保证。而口语化写作则没有这样的过程,很难评估其质量和连贯性。

Reddit的独特价值

Reddit的设置巧妙地解决了这些问题。作为一个匿名平台,用户可以快速创建账户,用化名发布信息。这种匿名性鼓励了随意、往往充满嘲讽和未经过滤的写作。更重要的是,Reddit还有一个独特的投票系统,用户可以对每个帖子进行评价,优秀的帖子会被顶上去,而无用的垃圾信息、营销内容和极端观点会被埋没或删除。

这种投票系统使得Reddit的数据在AI训练中具有无与伦比的价值。Reddit不仅提供了丰富的口语化写作,还内置了一个评价这些写作质量的系统。

Reddit的盈利风潮

由于其数据的完美性,Reddit正从大公司的AI投资中获得巨大收益。社交网络通过内容许可交易积累了数亿美元的收入,这帮助它在今年早些时候成功上市,并可能吸引更多投资者。随着LLM的商品化,Reddit也有可能创建自己的LLM,凭借其丰富的训练数据,比大公司竞争对手以更低的成本构建模型。

潜在风险

尽管有巨大的机会,AI公司对Reddit的痴迷也带来了严重的风险。Reddit之所以成功,是因为用户认为它是一个分享真实、不加修饰意见的地方。但这种匿名性也意味着数据不具有代表性,充满偏见和不准确的信息。AI公司可能会利用Reddit的投票数据来展示什么是受欢迎的,而不是事实。

LLM擅长检测模式,这些系统可能会从Reddit学习到偏见、分裂言论和网络喷子的模式,并在其他上下文中重复这些模式。这些偏见难以被检测到,甚至连系统的创建者也难以发现。

未来的解决方案

解决这些偏见需要更多的数据,而不是更少的数据,也需要更好地注释现有的、更少极端的口语化对话数据。更多来自不同背景和观点的数据将有助于改进LLM的训练。然而,企业如谷歌和OpenAI从哪里获得这种数据仍不明确。Slack等公司的开放数据训练引发了用户的愤怒,使得AI公司面临两难境地。

尽管如此,AI公司仍愿意为Reddit的数据支付数亿美元,因为这是他们目前能找到的最佳选择。

  • 16
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值