#猎户座
「草莓」即将上线,OpenAI新旗舰大模型曝光,代号「猎户座」

ChatGPT 要进化了?

本月初,OpenAI 创始人、CEO 山姆・奥特曼突然在 X 上发了一张照片,勾起了大家强烈的好奇心。

「四个红草莓,其中还有一个未成熟的青色草莓,这不妥妥地是在说下一代 AI 大模型 GPT-5 要来了吗?」奥特曼在回应网友时也在暗示,惊喜马上就来。

据科技媒体 The Information 报道,传说中的「草莓」真的要来了!

两位参与该项目的人士表示,OpenAI 计划最早在今年秋天推出代号为 「草莓」(之前称为 Q*,发音为 Q Star)的新人工智能,作为聊天机器人的一部分(可能集成在 ChatGPT 内)。「草莓」 可以解决它以前从未见过的数学问题(这是当今的聊天机器人无法准确做到的),并且训练后还可以解决涉及编程的问题,但它并不局限于回答技术问题。

据 The Information 报道,OpenAI 正在开发新旗舰 LLM,代号「Orion」。该模型旨在改进去年年初推出的现有旗舰 LLM——GPT-4。

而「草莓」旨在改进即将推出的「Orion(猎户座)」,并且 OpenAI 已经向安全监管人员展示了「草莓」模型。较小版本的「草莓」可以以聊天机器人的形式推出。

知情人士表示:OpenAI 正在使用较大版本的「草莓」来生成用于训练 Orion 的数据。这种人工智能生成的数据被称为「合成数据」。这意味着「草莓」可以帮助 OpenAI 克服获取足够高质量数据的限制,以便利用现实世界的数据(例如从互联网上提取的文本或图像)训练新模型。

当给予额外的「思考」时间时,「草莓」可以回答用户更主观的问题,例如产品营销策略。

OpenAI 推出「草莓」是为了保持对话式人工智能或大型语言模型的霸主地位。该技术还将对未来完成多步骤任务的智能体产品产生影响。 OpenAI 希望在智能体领域开辟更多收入机会。

为什么「草莓」对「Orion」如此重要

「草莓」最重要的应用之一是为下一代旗舰大语言模型 Orion 生成高质量的训练数据。该代号此前从未被报道过。

简单来说,「草莓」 可以生成更高质量的训练数据。智能体初创公司 Minion AI 的首席执行官、GitHub Copilot 的前首席架构师 Alex Graveley 表示,使用「草莓」生成更高质量的训练数据可以帮助 OpenAI 减少其模型生成的错误(也称为幻觉)数量,他还指出之所以能够做到这一点,是因为「训练数据中的歧义性较少」。

这里不得不提一下,OpenAI CEO 山姆・奥特曼在五月份的一次活动中曾说道:「我们觉得我们已经为下一个模型提供了足够的(数据),我们做了各种各样的实验,包括生成合成数据。」下一个模型可能指的就是「Orion」。

OpenAI 内部也在推动通过一种称为蒸馏(distillation)的过程来简化和缩小「草莓」。

现在还不能确定基于「草莓」的最终的产品将会是什么样子,但一个显而易见的想法是将「草莓」的推理能力融入到 ChatGPT。其结果是答案可能会更准确,但可能会更慢。

这意味着「草莓」可能不太适合用户期望立即得到响应的需求,但非常适合对时间不太敏感的用例。

或许我们可以想象,在不久的将来,ChatGPT 用户可以根据自身对时间的敏感程度来打开或关闭「草莓」。

今年夏天,OpenAI 已经向安全监管人员展示了「草莓」模型。此次演示可能是 OpenAI 努力向政策制定者提高透明度的一部分。

鉴于今年早些时候,Ilya Sutskever 等几位安全负责人的离职,对 OpenAI 来说,技术透明将尤其重要。

参考链接:

https://www.theinformation.com/articles/openai-races-to-launch-strawberry-reasoning-ai-to-boost-chatbot-business?rc=ks2jbm

https://www.theinformation.com/articles/openai-shows-strawberry-ai-to-the-feds-and-uses-it-to-develop-orion?rc=ks2jbm




#杂文
孟瑜获杰出博士论文奖,中科大获最佳学生论文,KDD 2024全部奖项放出

ACM SIGKDD(国际数据挖掘与知识发现大会,KDD) 会议始于 1989 年,是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议,也是首个引入大数据、数据科学、预测分析、众包等概念的会议。

今年的 KDD 大会是第 30 届,8 月 25 日 - 29 日在西班牙巴塞罗那召开,最佳论文奖、时间检验奖、杰出博士论文奖等奖项也逐一揭晓。

其中有多位华人研究者获奖,孟瑜的《Efficient and Effective Learning of Text Representations》获得了 KDD 2024 杰出博士论文奖,最佳论文奖(研究方向)颁给了六位华人学者参与的《CAT: Interpretable Concept-based Taylor Additive Models》,最佳学生论文(研究方向)颁给了中国科学技术大学、华为合作的《Dataset Regeneration for Sequential Recommendation》。KDD 2024 最佳论文奖(应用数据科学方向)由领英获得,此外,大会还颁发了两项时间检验奖。

杰出博士论文奖

KDD 2024 杰出博士论文奖颁发给了《Efficient and Effective Learning of Text Representations》,作者是弗吉尼亚大学助理教授孟瑜(Yu Meng )。

孟瑜于 2024 年加入弗吉尼亚大学 (UVA) 计算机科学 (CS) 系,担任助理教授(tenure-track)。此前,他获得了伊利诺伊大学厄巴纳 - 香槟分校 (UIUC) 的博士学位,与韩家炜教授一起工作。他还曾在普林斯顿 NLP 小组担任访问研究员,与陈丹琦一起工作。

论文摘要:文本表示学习在广泛的自然语言处理 (NLP) 任务中发挥了关键作用。这些表示通常是通过深度神经网络将原始文本转换为向量获得的。LLM 的最新进展已经证明了学习通用文本表示的巨大潜力,可适用于广泛的应用。这一成功由两个关键因素支撑:

  • 在预训练和微调中使用广泛的文本数据来训练 LLM;
  • LLM 的规模可扩展到包含数百亿甚至数千亿个参数。

因此,训练 LLM 需要大量成本,包括获取大量带标签的数据以及支持这些大型模型所需的基础设施。在这些挑战的基础上,本文旨在开发高效且有效的文本表示学习方法,涉及以下关键内容:

利用球面空间进行文本表示学习。表示空间的传统选择是欧几里得空间,但非欧几里得球面空间在通过方向相似性捕捉语义相关性的研究方面表现出卓越的能力。本文的工作重点是利用球面表示空间进行文本表示学习的自监督技术。

使用球面文本表示法发现主题结构。基于在球面空间中学习到的文本表示法,本文开发了通过联合建模主题和文本语义自动从给定语料库中发现主题结构的方法。

使用 LLM 生成训练数据以实现自然语言理解 (NLU)。要在 NLU 任务上实现稳健的性能,通常需要大量人工标注的训练样本来微调预训练的文本表示。为了减轻人工标注的需求,本文开发了一种新范式,使用 LLM 作为训练数据生成器来取代人工标注过程。

这些努力共同促进了文本表征更高效、更有效的学习,解决了训练和使用 LLM 面临的挑战。

论文详细内容请参阅:

https://scholar.google.com/citations?view_op=view_citation&hl=en&user=S2-yZKcAAAAJ&cstart=20&pagesize=80&citation_for_view=S2-yZKcAAAAJ:_Qo2XoVZTnwC

杰出博士论文奖(亚军)

此次还有两项研究获得了本届 KDD 的杰出博士论文奖(亚军)。


  • 论文标题:Make Knowledge Computable: Towards Differentiable Neural-Symbolic AI 
  • 机构:加利福尼亚大学
  • 作者:Ziniu Hu
  • 论文地址:https://escholarship.org/uc/item/3ft4t0nj

论文摘要:本论文探讨了神经人工智能系统与符号人工智能系统的交叉点。近年来的深度学习方法能够记忆大量的世界知识,但在此基础上进行符号推理仍存在局限性;而符号 AI 擅长解决推理任务,但在适应新知识方面效率较低。此前将两者结合的研究主要集中在构建基于解析的系统,这类系统需要大量的中间标签标注,且难以扩展。

作者的研究目标是使神经模型能够以可微分的方式与符号推理模块进行交互,并实现无需中间标签的端到端训练的这种神经 - 符号模型。为实现这一愿景,作者开展了以下研究工作:

  • 设计新型推理模块:设计可微分的神经模块,能够进行符号推理,包括知识图谱推理和复杂的逻辑推理。  
  • 通过自监督学习:从结构化和符号知识库中获取自监督信号来训练神经模型,无需额外的标注。  
  • 跨领域泛化:神经 - 符号系统的模块化设计天然有助于更好地进行分布外、词汇外、跨语言和跨类型的泛化。


  • 论文标题:Artificial Intelligence for Data-centric Surveillance and Forecasting of Epidemics
  • 机构:佐治亚理工学院
  • 作者:Alexander Rodriguez
  • 论文地址:https://repository.gatech.edu/entities/publication/aa292b79-26bb-4aec-a3f3-0fd87911ff74/full

论文摘要:对流行病的监控和预测是政府官员、企业和公众进行决策和规划的重要工具。尽管人们在理解疾病如何在人群中传播方面取得了多项进展,但从许多方面来看,人们对流行病传播的理解仍处于初期阶段。许多主要的挑战源于复杂的动态因素,如人员流动模式、政策遵守情况,甚至数据收集程序的变化。随着收集和处理新来源数据的努力,拥有许多变量的细粒度数据逐渐变得可用。然而,这些数据集很难通过传统的数学流行病学和基于智能体的建模方法来利用。相反,流行病学中的 AI 方法面临数据稀疏、分布变化和数据质量差异的挑战。

51c大模型~合集42_大模型

AI 技术在流行病学动态方面也缺乏理解,可能会导致不切实际的预测。为了解决这些挑战并向数据中心方法迈进,本论文提出了几个框架。具体来说,作者通过多个实例展示了将 AI 的数据驱动表达能力引入流行病学,可以实现对流行病更为敏感和精准的监控与预测。

研究方向论文奖

最佳论文

KDD 2024 最佳论文奖(研究方向)颁给了《CAT: Interpretable Concept-based Taylor Additive Models》。

  • 作者:Viet Duong, Qiong Wu, Zhengyi Zhou, Hongjue Zhao, Chenxiang Luo, Eric Zavesky, Huaxiu Yao, Huajie Shao
  • 论文地址:https://arxiv.org/pdf/2406.17931
  • 项目地址:https://github.com/vduong143/CAT-KDD-2024

论文摘要:作为一种新兴的可解释技术,广义相加模型(Generalized Additive Models,GAMs)让神经网络单独学习每个特征的非线性函数,然后通过线性模型组合以进行最终预测。尽管 GAM 可以在特征级别解释深度神经网络 (DNN),但它们需要大量模型参数,并且容易过度拟合,从而难以训练和扩展。

此外,对人类来说,在具有许多特征的现实数据集中,基于特征的解释的可解释性会降低。为了解决这些问题,最近的研究已转向基于概念的可解释方法。这些方法试图将概念学习作为做出预测之前的中间步骤,并用人类可理解的概念来解释预测。然而,这些方法需要领域专家用相关名称及其真实值广泛地标记概念。

基于此,该研究提出了一种可解释的、基于概念的新型泰勒相加模型 ——CAT,以简化这个过程。CAT 不需要领域专家来注释概念及其真实值。相反,它只需要用户简单地将输入特征分类为广泛的组,这可以通过快速元数据审查轻松完成。

具体来说,CAT 首先将每组输入特征嵌入到一维高级概念表征中,然后将概念表征输入到新的白盒泰勒神经网络(TaylorNet)中。 TaylorNet 旨在使用多项式学习输入和输出之间的非线性关系。多个基准的评估结果表明,CAT 可以优于基准或与基准竞争,同时减少对大量模型参数的需求。重要的是,它可以通过高级概念有效地解释模型预测。

最佳学生论文

KDD 2024 最佳学生论文(研究方向)颁给了《Dataset Regeneration for Sequential Recommendation》。

  • 机构:中国科学技术大学、华为
  • 作者:Mingjia Yin, Hao Wang, Wei Guo, Yong Liu, Suojuan Zhang, Sirui Zhao, Defu Lian, Enhong Chen
  • 论文地址:https://arxiv.org/pdf/2405.17795
  • 项目链接:https://anonymous.4open.science/r/KDD2024-86EA

论文摘要:序列推荐系统(SR)是现代推荐系统中的关键组件,其目标是捕捉用户不断变化的偏好。为了增强 SR 系统的能力,已经进行了大量研究。这些方法通常遵循以模型为中心的范式,即基于固定数据集开发有效模型。然而,这种方法往往忽略了数据中潜在的质量问题和缺陷。基于数据中心化 AI 的潜力,研究团队提出了一种新颖的数据中心化范式,利用名为 DR4SR 的模型无关数据集再生框架来开发理想的训练数据集。该框架能够生成具有出色跨架构泛化能力的数据集。此外,他们还引入了 DR4SR + 框架,它结合了模型感知的数据集定制功能,能够为目标模型专门定制再生的数据集。

为了验证数据中心化范式的有效性,研究团队将该框架与各种以模型为中心的方法结合,观察到在四个广泛使用的数据集上性能显著提升。我们还进行了深入分析,探索数据中心化范式的潜力,并提供了宝贵的见解。

应用数据科学方向

最佳论文

KDD 2024 最佳论文(应用数据科学方向)颁给了《LiGNN: Graph Neural Networks at LinkedIn》。

  • 机构:领英
  • 作者:Fedor Borisyuk, Shihai He, Yunbo Ouyang, Morteza Ramezani, Peng Du, Xiaochen Hou, Chengming Jiang, Nitin Pasumarthy, Priya Bannur, Birjodh Tiwana, Ping Liu, Siddharth Dangi, Daqi Sun, Zhoutao Pei, Xiao Shi, Sirou Zhu, Kay Shen, Kuang-Hsuan Lee, David Stein, Baolei Li, Haichao Wei, Amol Ghoting, Souvik Ghosh
  • 论文地址:https://arxiv.org/pdf/2402.11139

论文摘要:这篇论文介绍了已部署的大规模图神经网络(GNNs)框架 LiGNN,并分享了领英开发和部署大规模 GNN 的经验。论文提出了一系列算法改进来提升 GNN 表示学习的质量,包括具有长期损失的时间图架构,通过图密集化、ID 嵌入和 multi-hop 相邻采样实现的有效冷启动解决方案。

具体来说,论文介绍了如何通过自适应相邻采样、训练数据 batch 的分组和切片、专用共享内存队列和局部梯度优化,在 LinkedIn 图上构建大规模训练,并将训练速度提高 7 倍。研究者总结了从 A/B 测试实验中收集到的部署经验和教训。这项工作中介绍的技术帮助提高了约 1% 的工作应用回听率、2% 的广告点击率提升、0.5% 的日活用户提升、0.2% 的会话提升和 0.1% 的每周活跃用户数提升。这项工作有望为大规模应用图神经网络的工程师提供实用的解决方案和见解。

最佳论文亚军

KDD 2024 最佳论文亚军(应用数据科学方向)颁给了《Nested Fusion: A Method for Learning High Resolution Latent Structure of Multi-Scale Measurement Data on Mars》。

  • 机构:佐治亚理工学院、加州理工学院
  • 作者:Austin Wright, Duen Chau, Scott Davidoff
  • 论文地址:https://dl.acm.org/doi/pdf/10.1145/3637528.3671596
  • 项目链接:https://github.com/pixlise/NestedFusion.

论文摘要:火星探测车「毅力号」代表了火星测量精度的代际变化,然而这种精度的提高也为探索性数据分析技术带来了新的挑战。探测车上的多个仪器分别测量科学家感兴趣的特定属性,因此分析底层现象如何共同影响多个不同的仪器,对于全面了解数据至关重要。然而,每个仪器的分辨率各不相同,使得不同数据层的映射变得复杂。

这项研究提出了 Nested Fusion 方法,该方法能够结合不同分辨率的任意分层数据集,并在可能的最高分辨率下生成潜在分布,编码不同测量和尺度之间的复杂相互关系。

51c大模型~合集42_大模型_02

该方法能够对大型数据集高效处理,甚至可以对未见过的数据进行推理,并在真实的火星探测车数据上,超越了现有的降维和潜在分析方法。他们已在 NASA 喷气推进实验室(JPL)内的火星科学团队中部署了 Nested Fusion 方法,并且通过多轮参与式设计,大大提升了科学家的探索性分析工作流程。

时间检验奖

大会还评出了两项时间检验奖。

KDD 2024 时间检验奖(研究方向)颁给了《DeepWalk: online learning of social representations》。

  • 机构:纽约州立大学石溪分校
  • 作者:Brian Perozzi, Rami Al-Rfou, Steven Skiena
  • 论文链接:https://arxiv.org/pdf/1403.6652
  • 项目链接:https://github.com/phanein/deepwalk

论文摘要:这篇论文介绍了研究团队所提出的一种用于学习网络中顶点隐层表示的新方法 ——「DeepWalk」。这些隐层表示将社会关系编码在连续的向量空间中,统计模型则可以轻松利用这些表示。

DeepWalk 将语言建模和无监督特征学习(或深度学习)从词序列推广到了图结构。DeepWalk 通过截断随机游走获取局部信息,并将游走等同视为句子,从而学习隐层表示。他们在多个社交网络的多标签网络分类任务中展示了 DeepWalk 的隐层表示,例如 BlogCatalog、Flickr 和 YouTube。

51c大模型~合集42_大模型_03

结果表明,DeepWalk 在有缺失信息的情况下,表现优于能够看到全局网络视图的其他强大基线方法。特别是在标注数据稀缺的情况下,DeepWalk 的表示可以将

51c大模型~合集42_大模型_04

分数提高最多 10%。在某些实验中,DeepWalk 使用少于 60% 的训练数据时,仍能超越所有基线方法。DeepWalk 具有可扩展性,它是一种在线学习算法,能够构建有用的增量结果,且易于并行化。这些特性使其适用于广泛的实际应用场景,如网络分类和异常检测。

KDD 2024 时间检验奖(应用数据科学方向)颁给了《U-Air: when urban air quality inference meets big data》。

51c大模型~合集42_大模型_05

  • 机构:微软亚洲研究院
  • 作者:Yu Zheng, Furui Liu, Hsun-Ping Hsieh
  • 论文链接:http://chbrown.github.io/kdd-2013-usb/kdd/p1436.pdf

论文摘要:这篇论文介绍了研究团队所提出的一种基于协同训练框架的半监督学习方法。关于城市空气质量的信息(例如 PM2.5 的浓度),对于保护人类健康和控制空气污染至关重要。然而,城市中空气质量监测站的数量有限,并且空气质量在城市空间中又呈现非线性变化,并受多种因素的影响,例如气象、交通流量和土地利用等。在本文中,研究团队基于现有监测站报告的(历史和实时)空气质量数据,以及在城市中观察到的各种数据来源(如气象、交通流量、人员流动、道路网络结构和兴趣点 POIs),推断整个城市的实时、细粒度的空气质量信息。

他们提出了一种基于协同训练框架的半监督学习方法,该框架包含两个独立的分类器。一个是基于人工神经网络(ANN)的空间分类器,它将空间相关特征(如 POI 的密度和高速公路的长度)作为输入,以建模不同地点之间空气质量的空间相关性。另一个则是基于线性链条件随机场(CRF)的时间分类器,使用时间相关特征(如交通和气象)来建模一个地点空气质量的时间依赖性。

51c大模型~合集42_大模型_06

研究团队在北京和上海所获取的五个真实数据源的基础上进行了广泛的实验评估。结果表明,与四类基线方法(包括线性 / 高斯插值、经典扩散模型、决策树和 CRF 等著名分类模型,以及 ANN)相比,他们所提出的基于协同训练框架的半监督学习方法具有显著优势。

更多信息,可参考大会官网:

https://kdd2024.kdd.org/awards/




#Llama-3不算真开源
今年10月,权威定义就要来了

你给翻译翻译,什么是开源?

开源大模型的标杆 Llama 3,居然都「被闭源」了。今天,开源再次成为了人们讨论的话题。

如今,开源的人工智能算法无处不在,从个人开发者到大型科技公司,大家都在享受最新技术带来的成果。

就连目前最热门的大模型领域,也区分了开源和闭源两个互相竞争的大方向。人们认为,随着开源技术的扩散与交流,开源的大模型最终将赶上 OpenAI 这样的业界顶尖水平。这或许就是扎克伯格等人理想中的繁盛景象。

不过,在层出不穷的新 AI 模型评论区里,我们也经常看到有人吐槽「连权重、数据都没有,这算什么开源?」

这个时候,一家有影响力的机构终于决定站出来,对开源这件事下一个定义了。

今年 10 月,「真开源」定义就要来了

开放源代码促进会(OSI)最近公布了其对「开源 AI」的最新定义草案。此举旨在澄清 Open Source 这一术语在快速发展的科技领域中,经常出现的模糊用法。

这个定义似乎来的正是时候。一个月前,大模型领域刚刚经历过一轮开源技术更新。Meta 发布了迄今为止最强的开源大模型 Llama 3.1 405B,宣布所有 Llama 版本的总下载量已超过 3 亿次,创业公司 Mistral 也紧接着宣布开源了 Large 2 大模型。

这些公司发布的预训练 AI 语言模型带有权重使用限制,同时继续使用了「开源」标签。这引发了开发者们对 AI 技术背景下什么才是真「开源」的激烈争论。

因为最近一段时间,开源变得越来越像是一个营销术语,将大模型描述为「开源」可以让人们对其变得更加信赖,即使研究人员和开发者时常会被这些许可证所限制。

Llama-3.1 发布的时候,Yann LeCun 曾宣传了开源的优势。

OSI 给出的定义下,很多事情需要我们来重新审视。例如,Meta 的 Llama 3 模型虽然可以自由获取,但 Meta 针对使用 Llama 系列模型的公司规模及通过该模型生成的内容类型,设定了特定的许可限制。因此,Llama 不符合 OSI 为软件定义的传统开源标准。

文生图模型 Flux 实际上也不是真正的开源。由于这种模糊性,OSI 通常用「开放权重」或「代码可用」等术语来指代那些含有代码或权重限制或缺乏配套训练数据的 AI 模型。

为了正式解决「真假开源」的问题,一向倡导开源的 OSI 召集了一个专家团队来为「开源」下定义。这个约 70 人的团队由研究人员、律师、政策制定者组成,其中还有来自 Meta、Google 和亚马逊等大型科技公司的代表。他们起草的最新草案为判断 AI 模型是否符合开源标准提出了「四项基本自由」:不限制使用目的,允许深入研究其工作原理,支持随意修改,无论是否进行过修改都允许用户自由分享模型。

这「四项基本自由」也沿用了人们对开源软件的定义。OSI 希望通过对「开源 AI」树立明确的标准,方便开发者、研究人员和用户在创建、研究或使用 AI 工具做出更明智的决策。

OSI 执行董事 Stefano Maffulli 在 Linux 基金会 AI_dev 大会上发布了对开源定义的最新版草案

换句话说,开源对于 AI 更加稳定安全:如果 AI 模型做到了真正的「开源」,研究人员将能分析 AI 模型背后的工作方式,AI 系统的潜在软件漏洞也将更加明显。相较于 OpenAI 的「闭源」系统 ChatGPT,其确切的架构是一个严格保密的秘密。

据 OSI 的项目时间表显示,他们预计在 2024 年 10 月在 All Things Open 会议上正式宣布「开源 AI」定义的最终版。

那么在这个定义下,有哪些大模型是「开源」的呢?据说在第一批名单里包括 EleutherAI 的 Pythia、Ai2 的 OLMo 和开源集体 LLM360 等。

「创新不应该需要许可」

在五月份的新闻发布会上,OSI 强调了为真正的「开源」AI 厘清定义的重要性。「AI 与常规软件不同,需要迫使所有利益相关者重新审视开源原则对该领域的适用性」,OSI 的执行董事 Stefano Maffulli 说,「OSI 相信每个人都应保有对技术的主导权和控制权。我们还认识到,当定义明确后,它将推动 AI 系统更加透明、更紧密的协作和无需许可的创新,市场就会繁荣发展。」

OSI 的最新草案不止要求「开源」模型本身及其权重,还要求对整个系统更加广义的开放。 一个 AI 系统要想被认定为「开源」,必须提供 OSI 定义的「适合修改的形式」,其中包括训练数据的详细信息、用于训练和运行系统的全部源代码,以及模型权重和参数。这些都必须在 OSI 认可的许可证或条款下提供。

值得注意的是,这份草案并没有强制要求公开原始训练数据。相反,它要求提供关于训练数据和方法的详细元数据。比如数据的来源、选择标准、预处理技术以及其他相关细节,方便研究者重建类似的系统。

这种方法旨在不公开实际数据集的情况下提供透明度和可复制性,在坚持开源原则的同时,从表面上解决了潜在的隐私和版权问题。不过是否能达成预计的效果,可能还有待进一步讨论。

训练数据的来源缺乏透明度,已经导致了一系列针对大型 AI 公司的诉讼。从 OpenAI 这样的业内带头人到 Suno 这样的小应用,这些公司的生成式 AI 产品除了声称包含「可公开访问的信息」外,并未披露太多有关其训练集的信息。很多人呼吁开源模型应该披露所有训练集,不过由于版权和数据所有权等问题,这一标准很难执行。

「这个定义最有趣的是,他们允许不公开训练数据,」独立 AI 研究员 Simon Willison 在接受外媒 Ars Technica 采访时说道:「这是一个非常务实的方法 —— 如果不允许这样,那就几乎就没有模型算『开源』了。」

OSI 想明确「开源」的定义,这个想法可以追溯到 2022 年,当时它首次开始联系有关组织,邀请他们一起来定义这个术语。

「经过近两年,我们从世界各地征求意见,来确定适合 AI 系统的开源原则,OSI 现在正在全球巡讲,希望能够完善并验证草案中的定义,」Maffulli 表示,「定义『开源』的研讨会仍在进行,现在参与还不晚,可以通过 OSI 网站找到论坛,发表评论建言献策。」

当最终定义在 10 月揭晓时,新的「开源」AI 定义可能对行业产生深远影响。它将影响公司以何种形式发布 AI 模型,并塑造未来的法规,例如加州备受争议的 SB-1047 法案。

希望新的定义,能够进一步推动大模型领域的技术创新。 

参考内容:

https://arstechnica.com/information-technology/2024/08/debate-over-open-source-ai-term-brings-new-push-to-formalize-definition/

https://opensource.org/deepdive/drafts/open-source-ai-definition-draft-v-0-0-9




#Partial coherence enhances parallelized photonic computing
牛津光计算论文登Nature正刊,分析帕金森患者步态准确率达92.2%

本文第一作者为牛津大学 Harish Bhaskaran 院士课题组董博维博士。Harish Bhaskaran 院士课题组的多名科研人员 2022 年在国内联合创立光计算芯片公司光本位科技,该公司在今年7月份的世界人工智能大会上宣布所研发的 128*128 矩阵规模光计算芯片算力密度和算力精度达到商用标准,董博维博士目前已与该公司建立合作关系,从光源、相变材料、硅光互联架构等多维度共同推进光子存算在人工智能领域的商业化落地。

光计算时代或许正在加速到来。

随着人工智能等技术对算力的需求日益增长,而传统电子计算的算力供给能力与人工智能产生的算力需求之间存在失配,这促使人们寻找新的算力增长点。

光计算具有高并行度、高能效比和高速度的特点,在构建大规模矩阵-矩阵并行计算系统时具有巨大优势。近年来,光计算领域涌现出许多研究成果和进展。

近日,牛津大学 Harish Bhaskaran 院士课题组董博维博士等研究人员在《Nature》正刊上发表论文「部分相干光可增强并行光计算」。

  • 论文链接:https://www.nature.com/articles/s41586-024-07590-y
  • 论文标题:Partial coherence enhances parallelized photonic computing

在论文中,他们证明了,降低光学相干性能够增强光子卷积处理。他们展示了一种利用降低的时间相干性(即部分相干系统)的光子卷积处理系统,以在不显著牺牲准确度的情况下提高处理并行性,并有可能实现大规模光子张量核。

这种方法消除了对众多移相器或 MRR 的精确控制的需求,并通过使用部分相干光源减轻了对严格反馈控制和热管理的要求。

研究者在两个用于计算应用的光子平台中展示了部分相干处理的广泛适用性:首先,他们使用相变材料光子存储器,通过 3×3 光子张量核进行并行卷积处理,对十名帕金森病患者的步态进行分类,实现了 92.2% 的准确率。其次,他们使用带有嵌入式 EAM 的 9×3 硅光子张量核实现了高速 0.108 TOPS 卷积处理器,用于矢量编码和权重设置,并结合片上光电探测器对 MNIST 手写数字数据集进行分类,准确率达到 92.4%。

光计算将加速人工智能新变革

光计算大多通过芯片作为载体,在光芯片上实现。光芯片指的是在用成熟 CMOS 电芯片工艺节点(180nm、130nm、90nm)改造而成的硅基光电子工艺下流片的芯片,可以运用在通信、传感和计算上。光通信领域,各大光通信厂商都已开始全面将设备芯片化,如将光开关集成到硅光芯片上,使得面积和功耗都下降 10-100 倍;传感领域,激光雷达厂商正在积极推动将固态雷达设备用硅光芯片替代,以缩小面积和降低成本;而计算是对硅光芯片工艺要求更高、调制更复杂的领域,技术上集成了通信、传感的先进工程化经验,也面向更庞大的人工智能市场。

光计算芯片是为人工智能而生。从理论基础上,光计算芯片天然适配于做并行、大规模的线性运算,而线性运算是当今世界所有主流人工智能算法的基石。从产业结构上,人工智能天然需要用大规模、大算力、安全可控的算力集群来完成生产力的跃迁,而在产生大量算力的同时,能耗控制决定了算力集群的效率和成本。光计算芯片提供了一个超大算力、超低能耗的算力集群的发展路线。在人工智能众多新兴领域里,光计算芯片天然适配于大模型、自动驾驶、具身智能等。

大模型的训练和推理需要大量的算力,光计算芯片可以极大降低大模型所需硬件的固定成本和使用成本。在固定成本方面,光计算芯片造价成本低,且无需先进制程流片。在使用成本方面,光计算芯片能效比极高,同样算力下耗电量仅为电芯片的 1/100。可以说,光计算芯片是最适合于大模型未来发展的算力核心硬件。

自动驾驶在从 L3 至 L5 的发展过程中,算力需求会从每辆车 300TOPS 激增到 2000TOPS,在现有自动驾驶电芯片的能耗条件下,L5 所需求的算力会带来超过千瓦的耗电量,目前的电池是难以持续支撑的。光计算芯片提供了一个在大算力前提下不产生大功耗的解决方案,从而保证了新能源汽车在 L5 全自动驾驶下依然有出色的续航表现。

具身智能系统要实现与人类互动并完成多样化指令要求,决策层的多模态处理不可或缺。作为具身智能的实体之一,智能机器人的强化学习和模型训练方面需要强大的算力支持。光计算芯片具备的高速率、低延迟、高并行能力、低能耗、不易受干扰等特性,能够为具身智能系统的技术发展和产业化应用提供重要基础支撑。

大规模光计算芯片调控成本高

光计算芯片可以解决大模型、自动驾驶、具身智能的痛点,但由于光的波特性需要复杂调控,实现大规模光计算芯片一直是个难题。

大规模光计算芯片需使用多个激光光源,每个激光的波长和相位需要精准调控。同时,光信号处理硬件也需要实现对波长和相位的精准调控。这类似往水池中的不同位置同时丢下多个石块,并要求在特定的观测点能够观测到固定的水纹。所需精准调控虽然理论上可行,但调控复杂,且需要巨大的调控成本,限制了光计算芯片的大型化发展。

过去的一个世纪内,科学家们专注于实现对光源波长和相位的精准控制,提升光学相干性(图 1)。使用高相干性激光是实现新兴光应用的基本思路,包括光计算。已展示的光计算系统皆使用高品质激光作为光源。

51c大模型~合集42_大模型_07

图 1:   高光学相干性加速新兴光应用的发展。图源:董博维.

部分相干光可增强并行光计算

近日发表在《Nature》上的工作打破了使用高品质相干光这一思维惯性,反常规地探究了降低光源相干性对光计算芯片的影响,展示了低品质光源可提高光计算性能。牛津大学 Harish Bhaskaran 院士(英国皇家工程院院士)课题组董博维博士等研究人员,展示了使用单一光源即可运行大规模光计算芯片,无需复杂的光源及片上波长、相位调控。

研究人员发现,通过降低光源的品质,打破光源的相干性,可以有效消除光计算芯片中的相位噪声问题,避免复杂的系统相位调控,同时通过提升带宽利用率大幅提高系统算力。

研究人员在存内光计算芯片和电吸收调制器阵列光计算芯片两个平台内展示了这一新方法的优越性。与现有技术相比,这项新技术有望将光芯片算力提升两个数量级,且通过降低系统控制复杂度大幅降低系统能耗。

打破光源相干性,消除相位敏感性

通过降低光源相干性,使用部分相干光源,相位敏感性可被彻底消除,一个窄带部分相干光即可应对多个输入通道。这一方法解耦了波长数量与输入通道数量的关联性。

假设光计算芯片的工作带宽为 80nm,部分相干光的线宽为 0.8nm,此时输入通道数可为任意大小,且计算并行度可为固定的数值 100,从而提供比传统相干光源光计算系统高 100 倍的算力。

研究人员通过实验验证了这一假设。如图 2 所示,在光计算系统中,若在多输入通道中使用单一激光,会发生明显的由干涉引起的强度扰动,影响计算结果(图 2b)。若使用单一部分相干光,可观测到强度扰动被彻底消除,得到稳定的计算结果(图 2c)。

51c大模型~合集42_大模型_08

图 2:   部分相干光彻底消除干涉引起的光强扰动,使单一光源对应任意大小的光计算芯片成为可能。图源:Nature.