LWN：FOSDEM上的开源AI讨论！

最新推荐文章于 2024-11-14 16:39:16 发布

LinuxNews搬运工

最新推荐文章于 2024-11-14 16:39:16 发布

阅读量152

点赞数

文章标签：开源人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2MjE0NDE5OA==&mid=2247488295&idx=1&sn=ab597c129eba6b47107d6be08c6dad0a&chksm=cfebeddb863c9c30fb805379a9d47425689c07c8e2069d825e026a391feab3fe0b7dab973e2e&scene=126&sessionid=0

版权

2024年的FOSDEM大会探讨了开源人工智能的发展，包括大型语言模型的伦理限制、许可证中的附加条件，以及开放数据集特别是非英语数据集的重要性。OpenLLMEurope的目标是开发涵盖多种欧洲语言的开源LLMs，以平衡全球AI生态的不平衡现象。

摘要由CSDN通过智能技术生成

关注了就能看到更多这么棒的文章哦～

Open-source AI at FOSDEM

February 15, 2024
This article was contributed by Koen Vervloesem
FOSDEM
Gemini translation
https://lwn.net/Articles/961868/

2024 年在布鲁塞尔举办的 FOSDEM 2024 上，AI and Machine Learning devroom 举办了多场关于开源人工智能模型的讲座。该活动从开源人工智能的定义、许可证中的“伦理”限制，到开放数据集的重要性，尤其是对非英语语种的重要性方面，提供了该领域当前状态的概览。

人工智能模型是在数据集上进行训练以识别模式、模仿学习数据的输出，或者自主做出某些类型决策的程序。特别引人注目的是大型语言模型（LLMs），这是一种能够生成类似人类文本的广泛神经网络，在 FOSDEM 上成为了一个反复提到的话题。这份报告来自于各场讲座的直播，因为今年我因感冒未能亲自参加 FOSDEM。

一个 LLM 典型地包含多达数千亿个“权重”，这些权重是浮点数，也称为“参数”。开发大型语言模型的公司不倾向于以开源方式发布他们的模型和运行模型的代码，因为训练这些模型需要大量的计算能力和资金投入。然而，这并不妨碍各种组织开发开源的 LLM。去年，LWN 对开源语言模型进行了介绍。

许可证限制

Free Software Foundation Europe（FSFE）的项目经理 Niharika Singhal 谈到了通过许可证在 AI 模型方面“加强伦理限制”的趋势。Singhal 提到了几个这种类型的额外限制的例子，涉及到使用范围、行为，或者商业做法。其中一个是Hipprocratic License，它限制被许可方执行许多被认为有害的行为，依据的是各种“国际协议和有关基本人权准则的权威”。还有一个是Llama 2 v2 use policy，禁止将 LLM 用于暴力或恐怖活动，以及“任何其他犯罪活动”。同样，BigScience 的OpenRAIL-M License对将模型用于各种有害活动加以限制。

Singhal 认为，这些额外的限制有着严重的影响：“它们为模型的使用和重复使用设置了障碍，这也使得调整和改进模型变得更加困难。”她认为，为了保持 AI 中的“开放性”，AI 模型的许可证必须与自由软件许可证互相兼容，而这些限制并不符合这一点。她总结说，许可证不能取代监管：“为了遵守伦理规定而采取限制性做法不应该写在许可证里：这属于监管的范畴。”

开源 AI 的定义

Open Source Initiative（OSI）的执行董事 Stefano Maffulli 描述了 OSI 在努力定义开源 AI 方面的工作。2022 年，OSI 开始联系研究人员、其他“开放”组织、技术公司和民权组织，询问他们对于一个开源 AI 系统的想法。

作为一般原则，Maffulli 认为，倡导自由软件基金会的金科玉律应当适用于 AI：“如果我喜欢一个 AI 系统，我必须能自由地与其他人分享它。”为了将一个 AI 系统归类为开源，它需要同样允许我们使用开源软件所采用的四个基本自由：使用、学习、修改和分享（to use, study, modify, and share）。

我们需要能够为任何目的来使用此系统，而无需寻求许可。我们需要能够研究系统的工作方式并检查其组件。我们需要能够修改系统，改变其建议、预测或决策以适应我们的需求。我们需要发布包含或者不包含我们修改的内容，以达到任何目的。

根据 Maffulli 的说法，在这一背景下提出的一个相关问题是：“对于 AI 系统进行修改的时候，哪种形式是首选？”为了回答这个问题，OSI 已经创建了小组，分析了一些热门的 AI 系统。“我们从Llama 2和Pythia开始。之后，我们将以相同方式分析BLOOM、OpenCV、Mistral、Phi-2和OLMo。”对于这些 AI 系统的每一个，工作小组将确定是否符合这四个基本自由的要求。例如，理解为什么在给定输入时会得到特定输出，对于研究 AI 系统是必要的。

2024 年，OSI 将每月发布一份开源 AI 定义的草案，并基于每两周一次的虚拟公开镇会进行修订。“我们的目标是在 10 月底前发布 1.0 版本”，Maffulli 说。每个人都可以参与 OSI 的公开论坛中对草案的讨论。

Maffulli 表示，在开源 AI 方面不能有灰色地带：一个 AI 系统要么是开源的，要么不是。然而，许多大型语言模型领域的参与者滥用“开源”这一术语。例如，Meta 的 Llama 2 是最受欢迎的“开源” LLM 之一。当 Meta 的 Yann LeCun 去年在 Twitter 上宣布这一模型时，他写道：“这很了不起：Llama-v2 是开源的，许可证授权商业使用！”然而，Llama 2 许可证规定了其商业使用方面的限制，这些限制基于活跃用户的数量。它还禁止使用 Meta 的模型来改进其他 LLM。这两个限制都与 OSI 的开源定义相矛盾。

开放数据集

法国软件公司Linagora 的研究工程师 Julie Hunter 讨论了构建开源语言模型。根据 Hunter 的说法，Meta 开发的 LLM、MosaicML 开发的模型以及Technology Innovation Institute 开发的 Falcon 模型都属于所谓的“开放权重模型”：神经网络的权重被公开发布。这使得人们可以选择如何运行模型，并且可以通过附加训练调整权重。然而，这些权重并不能解释某些东西是如何工作的或者为什么不工作。“没有对模型训练数据的访问权限，将留下很多事情需要猜测”，Hunter 说道。

人们已经推动开放训练数据，并且因此很多数据集已被添加到Hugging Face等网站上。Hunter 表示：“任何人都可以在这些数据集上训练他们的新 LLM。”但是，许多这些数据集都存在一些问题。它们经常是从网络上抓取的，充斥着个人信息、有毒语言和低质量的句子。此外，它们主要是以英语为主。

OpenLLM France 合作社旨在为法语语言构建开源 AI 模型和技术。对于其首个模型 Claire，主要目标是创建一个带有可追溯许可证的法语数据集。Claire French Dialogue Dataset 是一个包含了法语历史录音和舞台剧以及议会讨论的 1.4 亿字的语料库。这个数据集，Claire-Dialogue-French-0.1，大部分使用的是知识共享署名-非商业性使用-相同方式共享 4.0 国际（Creative Commons Attribution-NonCommercial-ShareAlike 4.0 Internactional）许可证，尽管有些部分使用其他（可追溯的）许可证。

这个数据集被用来微调一个开放权重模型，Falcon-7B。“这种方法的主要目的是评估优质数据集对模型性能的影响”，Hunter 表示。Linagora 的总经理 Michel-Marie Maudet 补充说，公司开发基于小型且高质量数据语料库的语言模型的理念受到了微软研究的一篇论文“只需教科书”的启发。他继续说：

数据集的质量比数量更重要。一个小型且高质量的语料库可以得到一个紧凑、专业化的模型，对于其响应的可解释性和可靠性有更好的控制。它还使得训练更快，从而可以持续更新它。

在 2023 年 10 月，模型Claire-7B-0.1发布在 Hugging Face 上。用于训练模型的代码也已按 AGPLv3 开源。

不只是英语

OpenLLM France 现在正在研发一个 100% 开源的语言模型 Lucie，计划在 2024 年 4 月发布。Maudet 解释道：“这个模型使用了 100% 开源的法语、英语、德语、西班牙语和意大利语的文本数据集，以及一些计算机代码。”这些数据集包括法国国家图书馆的档案和开放获取的学术出版物。

Maudet 的讲座介绍了 OpenLLM France 及其任务的一些细节。这个社区于 2023 年 7 月创建，已拥有超过 450 名活跃成员，包括从学术机构到公司的各类成员。为什么需要一个以法国为中心的 LLM 合作社呢？Maudet 解释说，从 2018 年以来，对于拥有超过 10 亿参数的 LLM 的地理分布状况的探究显示，近 70% 的模型是在北美制造的，而只有 7.5% 是在欧洲制造的。在分析 Llama 2 的训练数据的语言分布后，数字显得更加惨淡：“尽管英语占比接近 90%，欧洲语言如德语和法语只占数据的 0.17% 和 0.16%。”因为欧洲语言在它们的数据集中占比较少，像 Llama 2 这样的模型在这些语言方面表现不佳。

欧洲其他地区也有类似的倡议来构建针对欧洲语言的开源 LLM，比如在德国的LAION和openGPT-X，以及在意大利的Fauno。在 FOSDEM 上，Maudet 宣布 OpenLLM France 正在更名为OpenLLM Europe（尽管网站目前尚不可用）。“我们的使命是为每一种欧洲语言开发一种开源 LLM。”

结论

即使他们的许可证与四个基本自由相矛盾，这些组织也将其 AI 系统称为“开源”，这表明我们确实需要对开源 AI 有一个明确的定义。希望 OSI 在 2024 年年底之前发布的定义能够帮助停止许多“愿景美好但有害的伦理”限制的许可证的传播。除此之外，OpenLLM Europe 这样的合作社能够吸引足够的成员，以开发超越英语的强大的开源 LLM，对此也会有很大的帮助。

全文完
LWN 文章遵循 CC BY-SA 4.0 许可协议。

欢迎分享、转载及基于现有协议再创作～

长按下面二维码关注，关注 LWN 深度文章以及开源社区的各种新近言论～