Anni Lai：集结全球开发者智慧的开源模型，将足可以媲美闭源模型

GOSIM 全球开源创新汇

已于 2024-05-16 18:51:58 修改

阅读量1.7k

点赞数 14

分类专栏： GOSIM 2024 Europe 文章标签：开源人工智能开源协议开源软件安全

于 2024-05-16 16:54:12 首次发布

本文链接：https://blog.csdn.net/GOSIM2023/article/details/138967532

版权

GOSIM 2024 Europe 专栏收录该内容

12 篇文章 4 订阅

订阅专栏

“我们注意到，大公司发起的项目和小社区发起的项目之间是有差距的。这就是我们创建 GOSIM 全球开源创新汇的原因。”

作为 GOSIM 的核心组织者，在 GOSIM 2024 欧洲站大会开场时，Anni Lai 向 GOSIM 2024 欧洲站会场的与会嘉宾们介绍了 GOSIM 的成立背景、宗旨、构成，以及去年上海站会议的盛况。

“目前很多开源项目，来自草根创新社区和大公司发起，都有各自的延伸方式。很多时候，正是那些小型的、创新的开源项目成为了行业的一个巨大趋势。然而这些项目团队通常只是本地交流，多数并没有全球视野。”

“GOSIM 是非盈利性的组织，服务于全球开源开发者社区，是为社区运营的志愿者创建的。去年，我们在上海举办了第一届 GOSIM 大会，我们取得了巨大的成功，参与者超过1500人。”

在大会开场，Anni Lai 感谢了本次欧洲大会 RustNL 的协助支持，并号召更多志愿者参与进 GOSIM 的项目中。同时，她还预告了将于10月25日至26日在北京举行的 GOSIM 2024 APAC，欢迎全球开发者一起相聚北京共话开源创新。

Anni Lai 不仅是GOSIM的核心组织者之一，也是 Futurewei 开源运营的领导者，Generative AI Commons 主席和 LF AI & Data 董事会成员、LF 欧洲咨询委员会成员，长期活跃于 OpenStack 基金会、LF CNCF、LF OCI、LF Edge 和开放元宇宙基金会等各基金会董事会。

随后，在 GOSIM 2024 欧洲站的人工智能与智能体（AI & Agents）论坛，Anni Lai 作为演讲嘉宾，带来了《培养负责任的人工智能：增强开放性和社区协作能力》(Fostering Responsible AI: Empowering Openness and Community Collaboration) 的主题演讲。

开放大势所趋，如何应对开放AI所面临的挑战？

“在科技高速发展的阶段，我们要停下来慎重考虑其安全性和负责任发展的要素，否则就会对人类造成伤害。这也是构建负责任的AI的重要性所在。” Anni Lai 在演讲中表示，“我认为，开放是构建负责任的人工智能的基石（I do think openness is the cornerstone of buiding responsible AI）。”

Anni 在 AI & Agent 论坛发表主题演讲

目前开放 AI 所面临的挑战，包括模型数量快速增长、装扮为“开放”的“洗白”操作、很多许可附带限制（例如各种“可接受使用策略”）、AI 领域对于“开放”没有一致的定义、对许可的影响缺乏理解、很多组件没有发布（例如数据集）、非法转换许可证、开源许可用于非软件、可接受使用策略和用户协议用于模型权重等因素。

Anni 认为，开放有助于构建负责任的 AI，其中包括、透明度、问责制、协作、创新、道德提升、包容性几个要素。

随后，Anni 在演讲中对比了有关“开放”的几个重要概念：开放科学（Open science）、开源（Open source）、开放数据（Open Data）、开放内容（Open Content）、开放获取（Open Access）。

开放科学

开放科学是一场倡导让社会各阶层都能获取科学研究、数据和传播权限的运动。它包括以下实践：

开放获取：研究出版物可以在线免费获取，无需付费门槛或订阅费。
开放数据：公开共享研究数据，允许其他人访问、重用和重新分发数据。
开放源代码：不受限制地与他人共享研究中使用的代码。
开放方法：记录和共享研究中使用的方法、工具和软件，以实现透明度和可重复性研究。
公开同行评审：透明地进行同行评审过程，公开作者和评审者的身份。
开放合作：促进研究人员、机构和学科之间的合作，以加速科学进步。

开放科学的目标是提高研究的透明度、可重复性和可及性，从而带来更高效、更有影响力的科学进步，造福整个社会。

开源

开源是指一种软件开发和分发的模型，其中程序的源代码公开访问，允许任何人查看、修改和分发代码。开源的关键原则包括：

透明度：源代码公开共享，使用户能够了解软件的工作原理并验证其功能和安全性。
协作：开源项目鼓励开发人员之间的协作，他们可以为代码库提供改进、错误修复和新功能。
免费分发：任何人都可以自由使用、修改和分发开源软件，无需支付许可费或限制性协议。
社区驱动：开源项目通常由开发人员和用户社区驱动，他们共同维护和改进软件。
许可：开源软件通常根据特定许可证发布，例如 GNU 通用公共许可证(GPL) 或 MIT 许可证，这些许可证授予用户使用、修改和分发代码的权利，同时确保保留这些自由。

开源模式已在软件开发中被广泛采用，创建了许多成功的项目，例如 Linux 操作系统、Apache Web 服务器和 Mozilla Firefox 浏览器。开源的原理也被应用到其他领域，例如开源硬件和开源科学研究。这里需要强调的是，模型权重的讨论 AUP 和模型权重上使用的用户协议是“源代码可用模型”，可用性和开放性并非同一概念。

开放数据

开放数据是指任何人都可以不受限制地自由访问、使用、修改和共享的数据。开放数据的主要原则包括：

可用性：开放数据是公开可用的，任何人都可以轻松访问（通常通过在线平台或存储库）。
机器可读性：开放数据以计算机易于处理的格式提供，例如 CSV、JSON 或 XML，从而实现自动分析以及与其他系统的集成。
可重用性：开放数据的许可方式允许其重用和重新分发，包括用于商业目的，而限制很少或没有限制。
完整性：开放数据应尽可能完整，提供解释和使用所需的所有相关信息。
及时性：开放数据应在创建或收集后尽快提供，以最大限度地提高其价值和相关性。

开放数据倡议通常由政府、公共机构和研究组织推动，以促进透明度、问责制和创新。

对此，Anni Lai 在演讲里强调：“目前开放人工智能面临的最大挑战是缺乏对共享数据集的访问，以及用于处理和训练数据集的方法。”

开放内容

开放内容是指任何人都可以不受限制地免费访问、使用、修改和共享的创意作品。开放内容的主要原则包括：

可用性：开放内容是公开可用的，任何人都可以轻松访问（通常通过在线平台或存储库）。
可重用性：开放内容的许可方式允许其重用和重新分发（包括用于商业目的），而限制很少或没有限制。
可修改性：开放内容可以由其他人修改、改编或构建，从而实现衍生作品和协作改进。
完整性：开放内容应尽可能完整，提供解释和使用所需的所有相关信息或组件。
透明度：开放内容应附有明确的许可条款，规定使用和共享该内容的权限和条件。

开放内容倡议通常由个人、组织和社区推动，他们重视自由分享知识和创意作品的好处，例如促进教育、创新和文化交流。开放内容的示例包括开放教育资源、开源软件文档以及根据知识共享许可发布的创意作品。

Anni 在演讲中指出：“目前开放内容面临的最大挑战是开放内容很少，大部分都是受版权保护的。然而，开放内容许可证适用于文档。”

开放获取

开放获取 (OA) 是指在网上免费提供研究成果（例如学术文章和书籍）的做法，没有任何付费门槛、订阅费或其他访问限制。开放获取的主要特征包括：

免费提供：任何具有互联网连接的人都可以访问、阅读、下载和分发开放获取内容。
永久访问：开放获取材料可以无限期地访问，确保长期保存和可用性。
立即访问：开放访问内容一经发布即可提供，没有任何禁运期
重复使用权：开放获取材料通常在允许重用的许可下发布，例如知识共享许可，使其他人能够在适当的归属下构建和共享作品。

开放获取的目标是消除获取学术研究的障碍，使其更广泛地向研究人员、学生、政策制定者和公众开放。这种增加的可访问性可以促成各个研究领域更大的知名度、影响力和进步。

随后，Anni Lai 抛出了问题：AI 中的开放性应包含什么内容？

模型和学习到的参数是否广泛地开放下载？
提供其他模型开发组件，例如数据集和训练代码？
还是组件所使用的开放协议？

在回答问题之前，Anni Lai 先对完整性和开放性的定义做了详细阐释。

在开放科学中，完整性指的是为研究的所有组成部分提供全面、详细且有据可查的信息，确保每个元素都是彻底的、自包含的且不需要额外的上下文或资源就可以有意义地使用。

在研究组件的语境中，开放性是一种二元属性，指示特定组件是否根据开放许可证获得许可。当且仅当某个组件根据授予用户自由访问、使用、修改和共享该组件的权利的许可证进行分发时，该组件才被视为“开放”。如果某个组件未以此类开放许可证来授权，则该组件将被视为“不开放”。“开放”和“不开放”之间不存在中间状态；一个组件要么满足开放性要么不满足。

那么，什么是 AI 中的开放性？可以简单概括为 FACT：

自由(Freedom)：出于任何目的（包括商业用途）查看、使用、修改和分发的能力。
可访问性(Accessibility)：任何人都可以免费使用。
协作(Collaboration)：鼓励集体投入和贡献。
透明度(Transparency)：开发过程、研究和成果均接受公众监督。

而这一切，可以通过开放许可证实现。

在开放 AI 之前的时代，只有软件许可证。而开放 AI 后的时代，所有东西，包括软件、数据和内容都需要发行许可。

常见的开放和专有（限制性）许可证对比：

以上问题的解决方案——模型开放框架（MOF）。

Anni Lai 引入由 LF AI & Data 内的 Generative AI Commons 精心设计的模型开放性框架 (MOF)。MOF 是一个排名分类系统，旨在评估所有机器学习 (ML) 模型，提供结构化方法来促进 GenAI 开发的透明度和问责制。

MOF 包括的组件，对应 AI 模型的产出物如下图所示。

各种组件的产出物类型及对应可以接受的许可证

Anni 表示：“开源模型的生命周期有大概16个组成部分，每个环节都需要一个开源的许可证，只有每个环节都有符合标准的许可证，才算是真正开源的模型。”并非所有 AI 模型的全部组件都能符合开放性要求，“MOF 是把开源模型每一层都打开看，总共分为三个打开层级”。

根据多少组件符合，MOF 分为三个级别：

MOF 三级称为开放模型：应将模型架构、模型参数和元数据（最终检查点和优化器状态）、技术报告、评估结果、型号卡、数据卡开放。
MOF 二级为开放工具：除三级开放的所有组件外，还应开放训练代码、推理代码、评估代码、评估数据、支持的函数库及工具。
MOF 一级为开放科学：除二级开放的所有组件外，还应开放研究论文、研究论文、数据集、数据预处理代码、模型参数和元数据（中间检查点和优化器状态）。

MOF 的实现包括准备分发、确定等级、获取徽章的步骤。

准备分发：包括描述项目使用的许可证的许可证文件；包含一个 MOF.JSON 文件来描述 MOF 类、包含的组件和使用的许可证（使用模型开放工具）。
确定等级：模型开放性工具 (MOT) 将帮助模型制作者了解他们的模型如何与 MOF 类保持一致。
获取徽章：MOT 根据分类颁发徽章，并发布 github README.md 的代码，将模型开放性记录到模型开放性记分板。

这样的开放框架会带来什么好处？演讲通过两个维度进行了分析。

对模型生产者的好处：

围绕生产者的模型构建充满活力的生态系统
激发创新并改进模型生产者的工作
通过反馈改进模型和数据集
通过提高透明度和可重复性安抚监管机构
提高模型的安全性

在这个维度 MOF 的功效在于，促使模型制作者使用开放许可证发布更多组件。

对模型使用者的好处：

明确哪些模型可用于哪些目的
研究、教育和创新
在开放模型之上构建产品
为了自己的目的而增强模型
与更广泛的社区合作
访问模型开发生命周期的更多组件

在这个维度MOF的功效在于，明确哪些模型实际上是开放的，以及包含哪些内容。

偏见和公平、AI 安全、模型和代码审查、可信度、性能测试、Red-Teaming、安全和隐私，则不在 MOF 涉及范围内。

那么，如何参与？

模型开放工具（即将推出）：https://isitopen.ai/
加入 Generative Al Commons 开放社区：

https://genaicommons.org/

Anni 在演讲的结尾呼吁道：“加入我们，通过开放协作和透明度的赋能，释放生成式人工智能的全部潜力。我们共同加速构建开放和社区参与的人工智能系统的进程，促进负责任的创新，造福所有人。”

拥抱开源，Follow GOSIM

“目前很多声称开源的大模型，一打开其许可证，发现还有很多限制性条件，并不符合OSI对开源的定义。”Anni Lai 在随后的采访中分享道，“开源项目应该符合四个自由（Freedom），即自由使用（Freedom to Use）、自由检查（Freedom to Inspect）、自由分享（Freedom to Share）、自由修改（Freedom to Modify）。”

Anni Lai 会后接受了 CSDN/Boolan 首席顾问卢威的采访

她担任主席的 Generative AI Commons 项目，成立于2023年12月，归属 Linux 基金会和 LF AI & Data 基金旗下。该项目正是致力于通过中立的治理、开放和透明的协作和教育来促进高效、安全、可靠和道德的生成式 AI 开源创新的民主化、技术进步和行业应用。

Generative AI Commons 拥有超过120名活跃成员、超过60个活跃组织，其中包含5个工作组：

Model & Data 工作组，聚焦在开源项目下的模型和数据。
Framework 工作组，为开源和行业优秀实践做参考架构。
Application 工作组，聚焦于 AI 应用。
Education & Outreach 工作组，聚焦教育，做相关词典及行业白皮书。
Responsible AI 工作组，探讨如何实现最负责任的 AI。

Anni 谈到，最近她们正在致力于负责任的AI框架（Responsible AI Framework），希望大家共同参与进来，可通过访问组织网站（generativeai.org）加入其中。MOF 也是其架构成果之一，接下来模型开放工具也即将上线。Anni 透露，通过使用这个模型开放工具，开源模型将获得清晰的开放度评级认证，对构建负责任的人工智能形成助力。

分级与认证有助于模型生产者对自身产品形成清晰的界定，也利于模型使用者的辨别。Anni 表示：“我们正在践行开源的宗旨，做一些架构和最佳行业实践，通过自下而上的做法，以最广泛的开发者力量，促成更多 AI 行业及不同地区的从业者的开放与协作，让更多国际项目享受到开源的红利。”

“目前有关 AI 大模型的相关规则制定，某种程度上还属于粗线条的描述，而MOF提供了一种具体可行、易于操作的界定方式，是十分有意义的。”采访者卢威总结道。

在采访的结尾，Anni 表达了这样的预判：“集结全球开发者经验与智慧的开源模型，具备快速赶超的能力，在不久的将来，一定可以媲美目前主要的闭源模型。”

同时 Anni 作为 GOSIM 台前幕后的组织者和参与者，Anni 在会议期间的街采分享道：

“这是 GOSIM Conference 第二次举办，第一次是在上海。这次在欧洲，给我的感觉就是所有的开发者非常专业，问的问题质量很高，大家互动很踊跃。这次来欧洲也是非常值得。我们 GOSIM 要做的事情第一个是支持草根项目，第二个是支持创新项目，第三个一定是支持国际化的项目，我们希望成为一个桥梁，在开源的项目中让全世界的开发者一起合作。”

Anni 接受大会期间的街采

“下一次 GOSIM Conference 将在北京，同时会联动 1024 程序员节一起做一个 GOSIM 北京站，想做得比去年更好、更热闹、议题更丰富。我在会场问了欧洲的开发者有没有兴趣到北京，有很多人举手，希望在北京见到这些欧洲的开发者。我们的计划是希望每年在欧洲做一次，在亚太地区做一次。下一次北京见，希望大家能够过来！”

“拥抱开源，Follow GOSIM, see you in Beijing！” Anni 在采访中呼吁道。