OpenAI 的答案：投资数亿美元与出版商达成协议，掀起版权风暴与搜索引擎竞争

本文链接：https://blog.csdn.net/ponderai/article/details/141815981

OpenAI 的 GPT 模型取得了显著进步，这可能是因为它几乎吸收了整个网络上的文字内容。这其中包括 Axel Springer、Condé Nast 和美联社等主要出版商的完整档案库，而这些内容在获取时并未获得授权。然而，OpenAI 仍然与这些大公司达成了协议。

乍一看，这似乎不合逻辑。OpenAI 已经获取了这些内容，为什么还要为它们支付费用？而那些对作品被侵权感到愤怒的出版商，又为何愿意接受这些协议？

当进一步探讨这些交易时，或许可以窥见未来网络发展的一个可能方向。近年来，谷歌（Google）对外部网站的流量引导逐渐减少，这威胁到了整个网络的生态。这为 OpenAI 填补搜索领域的权力真空提供了机会。

交易的内幕

根据宣布与 Axel Springer 达成交易的新闻稿，这些协议使 OpenAI 能够访问一些出版物，以便“通过增加涵盖广泛主题的最新权威内容，丰富 ChatGPT 用户的体验”。其中的“最新内容”尤为关键。由于抓取网络内容具有时间限制，ChatGPT 的信息更新存在滞后性。因此，OpenAI 越接近实时访问，其产品就越能接近实时结果。

关于这些协议的具体条款仍然不明朗，可能是因为各方都签署了严格的保密协议。至于与 Vox Media（本出版物的母公司）的协议细节，也并未披露。对于出版商而言，保密条款使他们在与其他如谷歌或 AI 初创公司 Anthropic 的谈判中拥有更大的筹码，就像求职者不透露以前的工资，可以在新雇主面前要求更高的薪水一样。

根据《信息》报道，OpenAI 向出版商支付的金额可能仅为每年 100 万到 500 万美元。已知与 Axel Springer、金融时报、新闻集团、Condé Nast 和美联社等出版商达成了交易。根据公开数据推算，这些交易的上限可能是每家出版商每年 1000 万美元。

一方面，这些金额显得微不足道，甚至尴尬地少（该公司前首席研究员伊利亚·苏茨凯维尔 2016 年的年收入为 190 万美元）。但另一方面，OpenAI 已经获取了这些出版物的数据，除非法院禁止它继续使用这些数据，否则它可以继续抓取。那么，OpenAI 究竟在支付什么费用呢？

其中一个可能的解释是 API 访问权限，以便更轻松地进行抓取并保持数据更新。目前，ChatGPT 无法回答最新的查询，而 API 访问权限可能会改变这一点。

这些支付也可以被视为一种策略，以确保出版商不会因 OpenAI 已经抓取的内容而提起诉讼。目前已有一家主要出版商提起了诉讼，如果这些诉讼不断增加，OpenAI 可能面临更大的经济压力。这场法律争斗预计将持续多年。

《纽约时报》诉讼与版权纠纷

如果 OpenAI 已经吸收了整个基于文本的互联网内容，这意味着它几乎不可能在短期内再次生成如此海量的数据，这可能限制了 ChatGPT 在实用性上的进一步提升（值得注意的是，OpenAI 尚未发布 GPT-5）。同时，这也引发了广泛的版权争议。

目前，多家出版商已提起诉讼，其中《纽约时报》的诉讼最为重要。该诉讼指控 OpenAI 在未经授权的情况下吸收了其内容用于训练 LLM，并且 OpenAI 通过这种方式创建的产品与《纽约时报》竞争，意图“抢夺其读者群”。

《纽约时报》的诉讼称，曾试图与 OpenAI 就内容使用达成协议，但谈判未果。根据之前的推算，可能是因为 OpenAI 提供的金额过低，导致《纽约时报》拒绝了该提议。OpenAI 的辩解是基于“合理使用”原则，该原则在特定情况下允许未经许可使用受版权保护的材料。

如果《纽约时报》胜诉，OpenAI 可能至少要支付 75 亿美元的法定赔偿金。根据法律规定，每项侵权作品的赔偿金至少为 750 美元。《纽约时报》声称 OpenAI 吸收了 1000 万件作品，法定赔偿金的最低金额为 75 亿美元。

因此，OpenAI 与出版商达成的这些协议实际上是为了避免面临类似《纽约时报》诉讼的风险。通过这些协议，OpenAI 试图维持其对先前内容使用的“合理使用”辩护。

新闻媒体联盟的首席执行官丹妮尔·科菲指出：“我确实有理由相信，他们希望保留在合理使用范围内使用这些作品的权利。如果他们在法庭上不这么争论，那他们就不会这么做。”

改善声誉与搜索市场竞争

OpenAI 似乎希望通过这些协议来改善其声誉。如果公司计划推出一款新的付费产品，它就不能有太多的负面包袱和不确定性。而 OpenAI 目前正面临着这些挑战：为了证明其合理使用的立场，OpenAI 必须承认未经许可使用了《纽约时报》的受版权保护材料，这暗示它可能还未经许可使用了其他受版权保护的材料。其辩护的核心是，它有法律权利这样做。

此外，出版商协议不仅仅是为了提供合法性，也可能帮助生成式 AI 获取更准确的信息，从而减少尴尬的错误。众所周知，生成式 AI 经常会编造内容。

除了防止诉讼和管理声誉，这些协议还为 OpenAI 提供了最新信息。今年，OpenAI 宣布推出自己的搜索引擎 SearchGPT。虽然 AI 原生的网络搜索仍处于早期阶段，但能够过滤掉 AI 生成的垃圾信息，转而提供真实可靠的信息来源，将是一个显著优势。

近年来，谷歌搜索的效果显著下降，谷歌在搜索结果上附加的 AI 聊天机器人并未改善这种情况。它有时会给出不准确的答案，同时将包含真实信息的链接埋得更深。如果有公司能提出一个承诺提供更高质量信息的替代方案，谷歌搜索可能面临真正的挑战。毕竟，谷歌本身就是通过提供更优质的搜索体验，取代了之前的搜索引擎如 AltaVista。

OpenAI 正在大肆烧钱，预计今年可能亏损 50 亿美元。目前，公司正在进行新一轮融资谈判，估值超过 1000 亿美元。要证明这个估值的合理性，OpenAI 需要找到盈利的路径。接管搜索市场可能就是证明这些投资合理性的关键。

目前，OpenAI 的 SearchGPT 仍然是一个“原型”，还不构成对谷歌的严重威胁。如果它犯下类似于告诉用户在披萨上涂胶水的错误，解释起来也相对容易。与几乎每个在线用户都使用的谷歌搜索不同，SearchGPT 的用户数量有限，因此看到早期错误的人也少得多。

与出版商的交易还为 SearchGPT 提供了一个声誉缓冲。与其竞争对手 Perplexity 因抓取明确禁止其访问的网站而遭到抨击不同，SearchGPT 是与签订协议的出版商合作的。

然而，“答案引擎”模式对出版商的经济利益意味着什么仍不明朗。或许部分用户会继续点击查看原始来源，尤其是在大规模语言模型可能出现幻觉的情况下。另一种可能的模式来自 Perplexity，它后来推出了一个收入分享计划，这使得它更容易声称其抓取内容属于合理使用。

法院裁决的潜在影响

法院最终的裁决可能会对整个行业产生深远影响。出版商交易的部分原因在于减少法律诉讼的威胁，但这些协议的存在本身可能会削弱 AI 公司主张合理使用的立场。

《纽约时报》的胜诉可能对谷歌、OpenAI 和微软（Microsoft）等公司产生重要影响。谷歌前首席执行官埃里克·施密特曾表示，企业家应随心所欲地处理受版权保护的作品，然后“雇一堆律师来清理这个烂摊子”。

版权法在法院的判决中往往难以预测，因为它类似于色情作品——法官在看到侵权行为时就知道它存在。而且，如果《纽约时报》和 OpenAI 之间确实进行审判，无论谁胜诉，几乎可以肯定都会对判决提出上诉。这意味着诉讼过程将旷日持久。

新闻媒体联盟的丹妮尔·科菲指出，科技巨头在应对不利裁决时往往采取强硬策略。她特别提到谷歌的强大，以至于可以强迫出版商接受其条款。例如，2019 年，欧盟赋予数字出版商在谷歌使用其作品摘要时要求支付费用的权利。但谷歌选择只使用标题而不是支付费用，迫使出版商放弃版权保护以便在搜索结果中被找到。

当前，谷歌利用其搜索主导地位压迫出版商。阻止其 AI 总结出版商的作品意味着谷歌将不会在搜索结果中列出这些内容，因为它使用相同的工具来抓取网页搜索和 AI 训练。

如果《纽约时报》胜诉，谷歌和其他主要 AI 玩家可能仍会要求不利于出版商的交易，同时摧毁竞争对手的 LLM。公共知识政策顾问尼古拉斯·加西亚表示：“我非常担心我们正在建立一个生态系统，其中只有最大的公司才能负担得起训练数据的费用。”

事实上，诉讼的存在可能足以阻止一些参与者使用公开的数据来训练他们的模型。人们可能会认为他们无法在公开数据上进行训练，这将进一步缩小竞争态势。

OpenAI 不是《纽约时报》案件中的唯一被告，另一被告是其合作伙伴微软。如果 OpenAI 最终不得不支付数亿美元的和解金，这可能会促使其面临被微软收购的风险。到那时，OpenAI 已经谈判达成的所有许可协议都将属于微软，而这些许可协议在版权法要求下是必要的。

然而，OpenAI 可能因为这些许可协议而失利。根据版权法，如果这些协议扰乱了市场，那就不算合理使用。这一论点最近在一桩关于安迪·沃霍尔画作的最高法院案件中得到了讨论，该画作被认为与原始照片形成了不公平竞争。

除了法律问题，还有一个更基本的问题：人们是否真的需要“答案引擎”？如果需要，这些引擎是否在财务上可持续？搜索不仅仅是找到答案——谷歌还是一种在不必记住或收藏网址的情况下找到特定网站的方式。而且，AI 运行成本高昂，OpenAI 可能因为无法盈利而失败。至于谷歌，它可能因为垄断判决而面临被拆分的风险。

或许出版商的策略才是最明智的：趁着还能获得收入，抓紧时间变现。