Anni Lai:集结全球开发者智慧的开源模型,将足可以媲美闭源模型

“我们注意到,大公司发起的项目和小社区发起的项目之间是有差距的。这就是我们创建 GOSIM 全球开源创新汇的原因。”

作为 GOSIM 的核心组织者,在 GOSIM 2024 欧洲站大会开场时,Anni Lai 向 GOSIM 2024 欧洲站会场的与会嘉宾们介绍了 GOSIM 的成立背景、宗旨、构成,以及去年上海站会议的盛况。

“目前很多开源项目,来自草根创新社区和大公司发起,都有各自的延伸方式。很多时候,正是那些小型的、创新的开源项目成为了行业的一个巨大趋势。然而这些项目团队通常只是本地交流,多数并没有全球视野。”

图片

“GOSIM 是非盈利性的组织,服务于全球开源开发者社区,是为社区运营的志愿者创建的。去年,我们在上海举办了第一届 GOSIM 大会,我们取得了巨大的成功,参与者超过1500人。”

图片

在大会开场,Anni Lai 感谢了本次欧洲大会 RustNL 的协助支持,并号召更多志愿者参与进 GOSIM 的项目中。同时,她还预告了将于10月25日至26日在北京举行的 GOSIM 2024 APAC,欢迎全球开发者一起相聚北京共话开源创新。

Anni Lai 不仅是GOSIM的核心组织者之一,也是 Futurewei 开源运营的领导者,Generative AI Commons 主席和 LF AI & Data 董事会成员、LF 欧洲咨询委员会成员,长期活跃于 OpenStack 基金会、LF CNCF、LF OCI、LF Edge 和开放元宇宙基金会等各基金会董事会。

随后,在  GOSIM 2024 欧洲站的人工智能与智能体(AI & Agents)论坛,Anni Lai 作为演讲嘉宾,带来了《培养负责任的人工智能:增强开放性和社区协作能力》(Fostering Responsible AI: Empowering Openness and Community Collaboration) 的主题演讲。

图片

开放大势所趋,如何应对开放AI所面临的挑战?

“在科技高速发展的阶段,我们要停下来慎重考虑其安全性和负责任发展的要素,否则就会对人类造成伤害。这也是构建负责任的AI的重要性所在。” Anni Lai 在演讲中表示,“我认为,开放是构建负责任的人工智能的基石(I do think openness is the cornerstone of buiding responsible AI)。”

图片

Anni 在 AI & Agent 论坛发表主题演讲

目前开放 AI 所面临的挑战,包括模型数量快速增长、装扮为“开放”的“洗白”操作、很多许可附带限制(例如各种“可接受使用策略”)、AI 领域对于“开放”没有一致的定义、对许可的影响缺乏理解、很多组件没有发布(例如数据集)、非法转换许可证、开源许可用于非软件、可接受使用策略和用户协议用于模型权重等因素。

Anni 认为,开放有助于构建负责任的 AI,其中包括、透明度、问责制、协作、创新、道德提升、包容性几个要素。

图片

随后,Anni 在演讲中对比了有关“开放”的几个重要概念:开放科学(Open science)、开源(Open source)、开放数据(Open Data)、开放内容(Open Content)、开放获取(Open Access)。

开放科学

开放科学是一场倡导让社会各阶层都能获取科学研究、数据和传播权限的运动。它包括以下实践:

  • 开放获取:研究出版物可以在线免费获取,无需付费门槛或订阅费。

  • 开放数据:公开共享研究数据,允许其他人访问、重用和重新分发数据。

  • 开放源代码:不受限制地与他人共享研究中使用的代码。

  • 开放方法:记录和共享研究中使用的方法、工具和软件,以实现透明度和可重复性研究。

  • 公开同行评审:透明地进行同行评审过程,公开作者和评审者的身份。

  • 开放合作:促进研究人员、机构和学科之间的合作,以加速科学进步。

开放科学的目标是提高研究的透明度、可重复性和可及性,从而带来更高效、更有影响力的科学进步,造福整个社会。

图片

开源

开源是指一种软件开发和分发的模型,其中程序的源代码公开访问,允许任何人查看、修改和分发代码。开源的关键原则包括:

  • 透明度:源代码公开共享,使用户能够了解软件的工作原理并验证其功能和安全性。

  • 协作:开源项目鼓励开发人员之间的协作,他们可以为代码库提供改进、错误修复和新功能。

  • 免费分发:任何人都可以自由使用、修改和分发开源软件,无需支付许可费或限制性协议。

  • 社区驱动:开源项目通常由开发人员和用户社区驱动,他们共同维护和改进软件。

  • 许可:开源软件通常根据特定许可证发布,例如 GNU 通用公共许可证(GPL) 或 MIT 许可证,这些许可证授予用户使用、修改和分发代码的权利,同时确保保留这些自由。

开源模式已在软件开发中被广泛采用,创建了许多成功的项目,例如 Linux 操作系统、Apache Web 服务器和 Mozilla Firefox 浏览器。开源的原理也被应用到其他领域,例如开源硬件和开源科学研究。这里需要强调的是,模型权重的讨论 AUP 和模型权重上使用的用户协议是“源代码可用模型”,可用性和开放性并非同一概念。

图片

开放数据

开放数据是指任何人都可以不受限制地自由访问、使用、修改和共享的数据。开放数据的主要原则包括:

  • 可用性:开放数据是公开可用的,任何人都可以轻松访问(通常通过在线平台或存储库)。

  • 机器可读性:开放数据以计算机易于处理的格式提供,例如 CSV、JSON 或 XML,从而实现自动分析以及与其他系统的集成。

  • 可重用性:开放数据的许可方式允许其重用和重新分发,包括用于商业目的,而限制很少或没有限制。

  • 完整性:开放数据应尽可能完整,提供解释和使用所需的所有相关信息。

  • 及时性:开放数据应在创建或收集后尽快提供,以最大限度地提高其价值和相关性。

开放数据倡议通常由政府、公共机构和研究组织推动,以促进透明度、问责制和创新。

图片

对此,Anni Lai 在演讲里强调:“目前开放人工智能面临的最大挑战是缺乏对共享数据集的访问,以及用于处理和训练数据集的方法。”

开放内容

开放内容是指任何人都可以不受限制地免费访问、使用、修改和共享的创意作品。开放内容的主要原则包括:

  • 可用性:开放内容是公开可用的,任何人都可以轻松访问(通常通过在线平台或存储库)。

  • 可重用性:开放内容的许可方式允许其重用和重新分发(包括用于商业目的),而限制很少或没有限制。

  • 可修改性:开放内容可以由其他人修改、改编或构建,从而实现衍生作品和协作改进。

  • 完整性:开放内容应尽可能完整,提供解释和使用所需的所有相关信息或组件。

  • 透明度:开放内容应附有明确的许可条款,规定使用和共享该内容的权限和条件。

开放内容倡议通常由个人、组织和社区推动,他们重视自由分享知识和创意作品的好处,例如促进教育、创新和文化交流。开放内容的示例包括开放教育资源、开源软件文档以及根据知识共享许可发布的创意作品。

Anni 在演讲中指出:“目前开放内容面临的最大挑战是开放内容很少,大部分都是受版权保护的。然而,开放内容许可证适用于文档。”

图片

开放获取

开放获取 (OA) 是指在网上免费提供研究成果(例如学术文章和书籍)的做法,没有任何付费门槛、订阅费或其他访问限制。开放获取的主要特征包括:

  • 免费提供:任何具有互联网连接的人都可以访问、阅读、下载和分发开放获取内容。

  • 永久访问:开放获取材料可以无限期地访问,确保长期保存和可用性。

  • 立即访问:开放访问内容一经发布即可提供,没有任何禁运期

  • 重复使用权:开放获取材料通常在允许重用的许可下发布,例如知识共享许可,使其他人能够在适当的归属下构建和共享作品。

开放获取的目标是消除获取学术研究的障碍,使其更广泛地向研究人员、学生、政策制定者和公众开放。这种增加的可访问性可以促成各个研究领域更大的知名度、影响力和进步。

图片

随后,Anni Lai 抛出了问题:AI 中的开放性应包含什么内容?

  • 模型和学习到的参数是否广泛地开放下载?

  • 提供其他模型开发组件,例如数据集和训练代码?

  • 还是组件所使用的开放协议?

在回答问题之前,Anni Lai 先对完整性和开放性的定义做了详细阐释。

在开放科学中,完整性指的是为研究的所有组成部分提供全面、详细且有据可查的信息,确保每个元素都是彻底的、自包含的且不需要额外的上下文或资源就可以有意义地使用。

在研究组件的语境中,开放性是一种二元属性,指示特定组件是否根据开放许可证获得许可。当且仅当某个组件根据授予用户自由访问、使用、修改和共享该组件的权利的许可证进行分发时,该组件才被视为“开放”。如果某个组件未以此类开放许可证来授权,则该组件将被视为“不开放”。“开放”和“不开放”之间不存在中间状态;一个组件要么满足开放性要么不满足。

图片

那么,什么是 AI 中的开放性?可以简单概括为 FACT:

  • 自由(Freedom):出于任何目的(包括商业用途)查看、使用、修改和分发的能力。

  • 可访问性(Accessibility):任何人都可以免费使用。

  • 协作(Collaboration):鼓励集体投入和贡献。

  • 透明度(Transparency):开发过程、研究和成果均接受公众监督。

而这一切,可以通过开放许可证实现

在开放 AI 之前的时代,只有软件许可证。而开放 AI 后的时代,所有东西,包括软件、数据和内容都需要发行许可。

图片

图片

常见的开放和专有(限制性)许可证对比:

图片

以上问题的解决方案——模型开放框架(MOF)。

Anni Lai 引入由 LF AI & Data 内的 Generative AI Commons 精心设计的模型开放性框架 (MOF)。MOF 是一个排名分类系统,旨在评估所有机器学习 (ML) 模型,提供结构化方法来促进 GenAI 开发的透明度和问责制。

图片

MOF 包括的组件,对应 AI 模型的产出物如下图所示。

图片

图片

各种组件的产出物类型及对应可以接受的许可证 

Anni 表示:“开源模型的生命周期有大概16个组成部分,每个环节都需要一个开源的许可证,只有每个环节都有符合标准的许可证,才算是真正开源的模型。”并非所有 AI 模型的全部组件都能符合开放性要求,“MOF 是把开源模型每一层都打开看,总共分为三个打开层级”。

根据多少组件符合,MOF 分为三个级别:

  • MOF 三级称为开放模型:应将模型架构、模型参数和元数据(最终检查点和优化器状态)、技术报告、评估结果、型号卡、数据卡开放。

  • MOF 二级为开放工具:除三级开放的所有组件外,还应开放训练代码、推理代码、评估代码、评估数据、支持的函数库及工具。

  • MOF 一级为开放科学:除二级开放的所有组件外,还应开放研究论文、研究论文、数据集、数据预处理代码、模型参数和元数据(中间检查点和优化器状态)。

图片

MOF 的实现包括准备分发、确定等级、获取徽章的步骤。

  • 准备分发:包括描述项目使用的许可证的许可证文件;包含一个 MOF.JSON 文件来描述 MOF 类、包含的组件和使用的许可证(使用模型开放工具)。

  • 确定等级:模型开放性工具 (MOT) 将帮助模型制作者了解他们的模型如何与 MOF 类保持一致。

  • 获取徽章:MOT 根据分类颁发徽章,并发布 github README.md 的代码,将模型开放性记录到模型开放性记分板。

图片

这样的开放框架会带来什么好处?演讲通过两个维度进行了分析。

对模型生产者的好处:

  • 围绕生产者的模型构建充满活力的生态系统

  • 激发创新并改进模型生产者的工作

  • 通过反馈改进模型和数据集

  • 通过提高透明度和可重复性安抚监管机构

  • 提高模型的安全性

在这个维度 MOF 的功效在于,促使模型制作者使用开放许可证发布更多组件。

对模型使用者的好处:

  • 明确哪些模型可用于哪些目的

  • 研究、教育和创新

  • 在开放模型之上构建产品

  • 为了自己的目的而增强模型

  • 与更广泛的社区合作

  • 访问模型开发生命周期的更多组件

在这个维度MOF的功效在于,明确哪些模型实际上是开放的,以及包含哪些内容。

偏见和公平、AI 安全、模型和代码审查、可信度、性能测试、Red-Teaming、 安全和隐私,则不在 MOF 涉及范围内。

那么,如何参与?

  • 模型开放工具(即将推出):https://isitopen.ai/

  • 加入 Generative Al Commons 开放社区:

    https://genaicommons.org/

图片

Anni 在演讲的结尾呼吁道:“加入我们,通过开放协作和透明度的赋能,释放生成式人工智能的全部潜力。我们共同加速构建开放和社区参与的人工智能系统的进程,促进负责任的创新,造福所有人。”

图片

拥抱开源,Follow GOSIM

“目前很多声称开源的大模型,一打开其许可证,发现还有很多限制性条件,并不符合OSI对开源的定义。”Anni Lai 在随后的采访中分享道,“开源项目应该符合四个自由(Freedom),即自由使用(Freedom to Use)、自由检查(Freedom to Inspect)、自由分享(Freedom to Share)、自由修改(Freedom to Modify)。”

图片

Anni Lai 会后接受了 CSDN/Boolan 首席顾问卢威的采访

她担任主席的 Generative AI Commons 项目,成立于2023年12月,归属 Linux 基金会和 LF AI & Data 基金旗下。该项目正是致力于通过中立的治理、开放和透明的协作和教育来促进高效、安全、可靠和道德的生成式 AI 开源创新的民主化、技术进步和行业应用。

图片

Generative AI Commons 拥有超过120名活跃成员、超过60个活跃组织,其中包含5个工作组:

  • Model & Data 工作组,聚焦在开源项目下的模型和数据。

  • Framework 工作组,为开源和行业优秀实践做参考架构。

  • Application 工作组,聚焦于 AI 应用。

  • Education & Outreach 工作组,聚焦教育,做相关词典及行业白皮书。

  • Responsible AI 工作组,探讨如何实现最负责任的 AI。

图片

Anni 谈到,最近她们正在致力于负责任的AI框架(Responsible AI Framework),希望大家共同参与进来,可通过访问组织网站(generativeai.org)加入其中。MOF 也是其架构成果之一,接下来模型开放工具也即将上线。Anni 透露,通过使用这个模型开放工具,开源模型将获得清晰的开放度评级认证,对构建负责任的人工智能形成助力。

分级与认证有助于模型生产者对自身产品形成清晰的界定,也利于模型使用者的辨别。Anni 表示:“我们正在践行开源的宗旨,做一些架构和最佳行业实践,通过自下而上的做法,以最广泛的开发者力量,促成更多 AI 行业及不同地区的从业者的开放与协作,让更多国际项目享受到开源的红利。”

“目前有关 AI 大模型的相关规则制定,某种程度上还属于粗线条的描述,而MOF提供了一种具体可行、易于操作的界定方式,是十分有意义的。”采访者卢威总结道。

在采访的结尾,Anni 表达了这样的预判:“集结全球开发者经验与智慧的开源模型,具备快速赶超的能力,在不久的将来,一定可以媲美目前主要的闭源模型。”

同时 Anni 作为 GOSIM 台前幕后的组织者和参与者,Anni 在会议期间的街采分享道:

“这是 GOSIM Conference 第二次举办,第一次是在上海。这次在欧洲,给我的感觉就是所有的开发者非常专业,问的问题质量很高,大家互动很踊跃。这次来欧洲也是非常值得。我们 GOSIM 要做的事情第一个是支持草根项目,第二个是支持创新项目,第三个一定是支持国际化的项目,我们希望成为一个桥梁,在开源的项目中让全世界的开发者一起合作。”

图片

Anni 接受大会期间的街采

“下一次 GOSIM Conference 将在北京,同时会联动 1024 程序员节一起做一个 GOSIM 北京站,想做得比去年更好、更热闹、议题更丰富。我在会场问了欧洲的开发者有没有兴趣到北京,有很多人举手,希望在北京见到这些欧洲的开发者。我们的计划是希望每年在欧洲做一次,在亚太地区做一次。下一次北京见,希望大家能够过来!”

“拥抱开源,Follow GOSIM, see you in Beijing!” Anni 在采访中呼吁道。

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值