• 博客(1225)
  • 收藏
  • 关注

原创 揭开OpenAI草莓模型神秘面纱——重塑大语言模型的逻辑能力

OpenAI即将发布“草莓”模型 来源:medium据报道,OpenAI计划在未来两周内发布其新的AI模型Strawberry(草莓)。据 Seeking Alpha周二(9 月 10 日)援引The Information 的一篇付费文章报道,新模型可以解决从未遇到过的数学问题,并且可以在回答之前「思考」问题。让模型具备「思考」能力一直是一个潜在的瓶颈,据悉草莓模型的诞生是为了应对现有人工智能技...

2024-09-11 12:17:20 670

转载 活动报名|Google DeepMind高级研究科学家,详解Vizier服务算法实现细节

报告主题:Google Vizier服务算法的实现细节报告日期:09月12日(周四)10:30-11:30报告要点:Google Vizier has performed millions of optimizations and accelerated numerous research and production systems at Google, demonstrating the su...

2024-09-09 12:17:56 64

转载 活动报名|Meta语音识别,正确率显著提升,零样本跨语言MMS Zero-shot

报告主题:零样本跨语言语音识别(MMS Zero-shot)报告日期:09月11日(周三)10:30-11:30报告要点:尽管自动语音识别(ASR)在语言覆盖方面取得了重大进展,但仍有许多语言未被覆盖。为了解决这一问题,我们提出了 MMS Zero-shot,这是一种简单的使用罗马化(romanization)而非复杂的音素化的方法。我们首先在包含1078种语言的标注数据集上训练了一个多语言的声学...

2024-09-09 12:17:56 86

转载 活动报名|AI+医学影像,扩散模型赋能医学影像生成,康奈尔大学

报告主题:AI+医学影像|扩散模型赋能医学影像生成的机遇与挑战报告日期:09月10日(周二)10:30-11:30报告要点:使用基于深度学习的计算机辅助诊断模型是一种普遍趋势,为了训练和维护这类模型,获得足够数量的准确标记的医学影像数据 是一项不可避免的任务。这里的一个主要挑战是,获取和标记医学数据既昂贵又困难。另外,即使有高质量的标记样本可用,通常也出于数据安全的考量不能轻易地与其他研究人员共享...

2024-09-09 12:17:56 75

转载 亲历者揭秘OpenAI的崛起:成功源自开放性探索,比如AGI和登月计划

沿着 Scaling Law、卷模型性能,可能会走到「死胡同」。文 | 黎诗韵编辑| 郑玄我们被倡导要想明白自己的目标是什么、并做出计划。然而,两位人工智能研究者却认为,这只适用于普通的小愿望。一旦涉及过于高远的、不确定能否实现的目标,比如打造 AGI(通用人工智能)、登月计划等等——那么根据兴趣进行自由的、开放性的探索,才更能实现想要的。他们把这一观点写成了《为什么伟大不能被计划》一书。在这本...

2024-09-05 17:18:26 178

转载 智源研究院推出全球首个包含文生视频的模型对战评测服务

2024年9月4日,智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场,覆盖国内外约40款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测,包含简单理解、知识应用、代码能力、推理能力多种预设问题。除网页端,该服务还率先开放了国内首个移动端访问入口,为用户提供高效便捷的模型对战评测体验。秉承FlagEval评测体系的...

2024-09-05 17:18:26 65

转载 直播报名|从智能运维体到结构化数据学习,基于大模型数据库诊断系统D-Bot...

报告主题:从智能运维体到结构化数据学习,基于大模型数据库诊断系统D-Bot报告日期:09月05日(周四)10:30-11:30报告要点:数据库管理员(DBA)在管理、维护和优化数据库系统方面扮演着重要的角色。然而,对于DBA来说,管理大量数据库并及时响应是困难和繁琐的(在许多在线情况下等待几个小时是不可容忍的)。此外,现有的经验方法只支持有限的诊断场景,而且更新数据库版本的诊断规则也需要耗费大量的...

2024-09-02 12:12:11 107

原创 实现机器人领域的ChatGPT时刻,需要大模型+强化学习丨明星教授Sergey特邀报告...

想象一下,如果想构建一个AI系统来控制机器人探索另一个星球。这样的机器人需要做些什么呢?它需要储备一些知识,能够理解环境中物体之间的物理关系,还需要能处理突发事件。如果它要去另一个星球,我们不可能预测那里将发生的一切,所以它需要能适应新的事物。人类在这方面做得很好,但这种灵活性和适应性对当前的AI系统来说是一个巨大的挑战。那么,最近AI的重大进展是否有助于我们构建这种灵活的自治系统呢?在智源特邀报...

2024-09-02 12:12:11 1045

转载 活动报名 | Triton 中国生态 Meetup 第二期

时间地点时间:2024年9月7日(周六) 14:00-17:00地点:智源大厦(北京市海淀区成府路150号)活动形式:线下+线上直播(直播观看链接于会前短信发送给大家)活动详情近年来,OpenAI 的 Triton 语言在全球 AI 领域迅速崛起,其影响力显著,然而在国内,围绕 Triton 的开发者社区尚显冷清,底层芯片适配的技术交流渠道亦亟待拓宽。智源研究院,深耕大模型研发前沿,已在 Trit...

2024-08-29 12:03:33 64

转载 直播报名|多智能体,SearchGPT平替,开源AI搜索引擎框架MindSearch,3周4.1k星

报告主题:多智能体AI搜索引擎,MindSearch(思·索)报告日期:8月28日(周三)10:30-11:30报告要点:7 月 25 日,OpenAI 发布了其 AI 搜索的原型系统 SearchGPT,SearchGPT 将 LLM 和搜索引擎结合,试图成为我们搜集信息、探索知识、解决问题的重要工具。然而,鉴于年初的 Sora 到目前都还没未真正实现大规模体验。那我们有没有平替免费尝鲜呢?基于...

2024-08-26 12:30:51 62

原创 Pi创始人斯坦福Chelsea Finn专访:工程师家庭出发,和10年战友Sergey走过机器人训练漫漫长夜丨独家...

出生于加州一个工程师世家的Chelsea Finn,从小最喜欢的是拼图和数独游戏,和父母比赛谁算得快似乎成了家庭餐桌上的保留节目,而真正的科研启蒙则来源于中学时代的机器人编程竞赛。「我中学时用乐高玩具钻研过机器人技术。六人小组,FIRST乐高联赛中,给机器人编程去完成某些任务。这段经历对我的研究生涯很有帮助,尤其是如何调试。这些机器人系统往往起初不能运行,你需要不断调试,并改正方案。」关于调试系统...

2024-08-26 12:30:51 863

转载 智源千万级指令微调数据集Infinity-Instruct持续迭代,Llama3.1仅微调即可接近GPT-4...

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题,智源研究院推出了千万级指令微调数据集Infinity Instruct。该数据集今年6月发布,近日完成了新一轮迭代,包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。Infinity-Instruct-7M包...

2024-08-21 13:29:20 92

转载 活动报名|一夜爆火的KAN比MLP更好?KAN与MLP性能比较

报告主题:公平对比KAN与MLP,KAN适合符号函数拟合,深度学习任务中MLP仍为通用首选报告日期:8月27日(周二)10:30-11:30报告要点:我们对 Kolmogorov-Arnold Networks(KAN)与 Multilayer Perceptron(MLP)在机器学习、计算机视觉、音频处理、自然语言处理和符号函数拟合任务上的性能进行了更公平和更全面的对比研究。实验过程,通过控制神...

2024-08-21 13:29:20 54

原创 14万引用Sergey教授专访:好研究没有妙计,不好的研究却千篇一律丨独家

“做研究就像买彩票,如果中奖奖金本身就低,就不要买那个彩票。”学术狂魔、强化学习领军者,来自UC伯克利的Sergey Levine副教授在形容如何做好研究时,做出了这样一个生动的比喻。做科研是一个漫长的学术祛魅的过程。在他看来,大部分的研究都会失败。面对极低的成功率,需要研究者放平心态,承担风险。在过去的很多年间,Sergey一直保持着极高的论文发表速率。ICLR 2021 上他是论文接收第一人(...

2024-08-16 16:46:25 501

转载 直播报名|幻觉即泛化,知识掩盖导致大模型的组合幻觉,热门工作

报告主题:幻觉即泛化,知识掩盖导致大模型的组合幻觉报告日期:8月20日(周二)10:30-11:30报告要点:为什么大语言模型在全部正确的训练数据上仍会产生幻觉?本次讲座会详细地讨论大模型产生组合幻觉的本质原因,并会讨论我们如何利用这一发现预测尚未发生的幻觉现象,以及如何使用无需训练的测试时间方法消除大模型组合幻觉。本次讲座将深入讨论我们如何发现并验证了训练过程中无处不在的数据不平衡导致模型产生组...

2024-08-15 18:10:26 64

原创 直播报名|重新思考GNN,不卷积的图神经网络,实现高效计算,热门工作

报告主题:重新思考GNN,不卷积的图神经网络报告日期:8月21日(周三)10:30-11:30报告要点:重新思考卷积图神经网络(GNN):它们表达能力有限,容易出现过度平滑和过度压缩,并且需要特殊的稀疏模块来实现高效运算。我们设计完全不依赖卷积运算符的图学习模块,称为随机游走统一记忆(RUM),其中RNN将终止于每个节点的拓扑特征和语义特征合并。基于丰富的RNN和图拓扑学研究,我们理论上证明并实验...

2024-08-15 18:10:26 176

原创 周四直播|ICML 2024,CMU&Meta 《语言模型物理学》系列,超越人类的二级推理,揭秘大语言模型推理机制...

报告主题:超越人类的二级推理,揭秘大语言模型推理机制报告日期:8月15日(周四)10:30-11:30报告要点:最新的语言模型在小学数学测试题集(如GSM8K)上表现出了近乎完美的准确率,这表明它们已具备解决数学推理问题的能力。为了研究语言模型是如何解决这些问题的,我们设计了一系列变量控制实验并探讨了以下问题:一、语言模型究竟是学会了真正的推理能力,还是仅仅依赖于答题模板的记忆?二、模型内在的推理...

2024-08-12 08:02:36 192

原创 周三直播|Stability AI,具有多帧和多视图一致性的动态3D内容生成,SV4D

报告主题:Stability AI|时间和空间一致性动态3D内容生成,SV4D报告日期:8月14日(周三)10:30-11:30报告要点:在大语言模型不断给人们带来惊喜的同时,大语言模型的资源耗费和部署成为了其大规模应用的瓶颈。为了应对不断增加而导致的移动设备上对高效大型语言模型 (LLM) 日益增长的需求,我们设计参数少于十亿的 LLM,称为 MobileLLM,与之前的 125M/350M 最...

2024-08-12 08:02:36 435

转载 本周活动|使用强化学习技术微调扩散模型教程,普林斯顿大学,fine-tuning算法...

报告主题:使用强化学习技术微调扩散模型教程与综述报告日期:8月7日(周三)10:30-11:30报告要点:扩散模型具有出色的生成能力。然而,当被要求在复杂条件下满足特定的高精度目标时,它们往往无法完成。想象一下,培训员工不仅要执行任务,还要根据动态的市场需求创新提高生产力的方法。这类似于强化学习为生成模型带来的效果。通过结合强化学习算法(如近端策略优化PPO),我们现在可以指导扩散模型不仅生成样本...

2024-08-04 13:00:40 70

转载 8月2日|热门工作,智能体Agent工具使用及其高质量数据生成方法,APIGen,xLAM...

报告主题:AI智能体的工具使用及其高质量数据生成方法报告日期:8月2日(周五)10:30-11:30报告要点:本次讲座将深入探讨论文《APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets》中提出的进展和方法。APIGen旨在通过生成高质量、多样化的数据集来增强AI智能体模...

2024-07-28 11:01:01 74

转载 直播|Meta新工作,350M小模型压缩部署移动端(MobileLLM, SpinQuant)性能比肩7B LLaMA-v2...

报告主题:大语言模型的压缩部署 (MobileLLM, SpinQuant)报告日期:8月8日(周四)10:30-11:30报告要点:在大语言模型不断给人们带来惊喜的同时,大语言模型的资源耗费和部署成为了其大规模应用的瓶颈。为了应对不断增加而导致的移动设备上对高效大型语言模型 (LLM) 日益增长的需求,我们设计参数少于十亿的 LLM,称为 MobileLLM,与之前的 125M/350M 最先进...

2024-07-28 11:01:01 79

转载 下周二直播|谷歌DeepMind&UIUC:决策智能,基于强化学习的VLM后训练

报告主题:决策智能:基于强化学习的VLM后训练报告日期:7月30日(周二)10:30-11:30报告要点:如何让VLM解决in-the-wild decision making任务?本次讲座会详细地讨论这个问题,从环境和算法上给出解决方案,并会讨论如何用这些方案解决现实问题,例如自动完成设备控制任务(如自动在手机上购物)。本次讲座将细致讨论用VLM解决in-the-wild决策任务的根本挑战,例如...

2024-07-28 11:01:01 53

转载 8月7日|使用强化学习技术微调扩散模型教程,普林斯顿大学,fine-tuning算法

报告主题:使用强化学习技术微调扩散模型教程与综述报告日期:8月7日(周三)10:30-11:30报告要点:扩散模型具有出色的生成能力。然而,当被要求在复杂条件下满足特定的高精度目标时,它们往往无法完成。想象一下,培训员工不仅要执行任务,还要根据动态的市场需求创新提高生产力的方法。这类似于强化学习为生成模型带来的效果。通过结合强化学习算法(如近端策略优化PPO),我们现在可以指导扩散模型不仅生成样本...

2024-07-28 11:01:01 66

转载 线下活动报名|智源研究院数据与行业应用Workshop,7月25日

2024-07-19 13:28:29 88

原创 多模态模型前沿思路-生成与理解丨青源Workshop第28期

青源Workshop丨No.28多模态模型前沿思路-生成与理解主题闭门研讨会当前,多模态生成与理解模型百花齐放,不同技术路线交相辉映,激发创新火花,北京时间7月23日(下周二)下午14点,智源社区将组织「青源Workshop:多模态模型前沿思路-生成与理解」小范围闭门研讨会,邀请到多位一线模型研究者参会分享。时间&地点时间:7月23日(下周二)下午14点(北京时间)地点:智源大厦(线上+...

2024-07-19 13:28:29 237

转载 “智星”科技人才招聘计划

2024-07-17 12:30:34 57

原创 直播|何恺明组 & MIT 热门开源工作,打破自回归图像生成瓶颈

报告主题:无需矢量量化的自回归图像生成方法报告日期:7月25日(下周四)10:30-11:30报告要点:传统观点认为,自回归的图像生成模型(AR)通常需要在离散的语义符上进行操作。我们观察到,虽然离散空间可以方便地表示语义符的概率分布,但它并不是自回归建模的必要条件。在这篇工作中,我们提出使用扩散过程来模拟每个语义符的概率分布,这使我们能够在连续空间中应用自回归模型。我们没有使用传统的离散交叉熵损...

2024-07-17 12:30:34 365

原创 活动报名|模拟世界,LLM能否替代人类搭建仿真环境?定量分析LLM生成基于文本的仿真环境的能力...

报告主题:大语言模型能模拟世界吗?定量分析大语言模型生成基于文本的仿真环境的能力报告日期:7月19日(周五)10:30-11:30报告要点:当训练的AI模型需要在复杂环境中做出规划决策时,高精度的仿真环境可以大幅降低在真实场景中实验的需求,从而降低训练成本,提升训练效率。然而,构建此类仿真环境成本高昂,且需要大量人工投入。与此同时,当今的大语言模型(LLM)使用的庞大的预训练数据包含了各类关于现实...

2024-07-15 11:31:29 217

原创 活动报名|揭秘Bengio团队最新评测工作:视觉字幕恢复VCR,现有大模型能否过关?...

报告主题:揭秘Bengio团队最新评测工作:视觉字幕恢复VCR,现有大模型能否过关?报告日期:7月19日(周二)10:30-11:30报告要点:本次报告中我将介绍我与Bengio团队合作的最新工作——视觉字幕恢复(Visual Caption Restoration, VCR)。该任务通过恢复图像中被部分遮挡的文本,挑战现有视觉语言模型(Vision-Language Models, VLM)的高...

2024-07-15 11:31:29 196

转载 生成式AI之父Jürgen Schmidhuber:机器学习编年史与宇宙未来丨智源独家

导读在 2024 年智源大会的特邀报告环节,阿卜杜拉国王科技大学 (KAUST) 人工智能研究所所长、瑞士人工智能实验室 IDSIA 科学主任、LSTM 作者、现代人工智能之父 Jürgen Schmidhuber 从编年史的角度讲述了现代人工智能的发展、其历史背景及其对宇宙未来的预期影响。1990-91年被誉为AI发展的“奇迹之年”,正是在此期间,Jürgen 引入了生成对抗神经网络(现已广泛用...

2024-07-11 12:01:30 92

转载 7月11日直播|简单而强大,混合神经网络架构,支持无限上下文的混合模型 Samba...

报告主题:Samba,一种简单有效的支持无限上下文的混合模型报告日期:7月11日(周四)10:30-11:30报告要点:Samba是一种简单而强大的混合神经网络架构,旨在对无限的上下文长度实现高效的语言建模。Samba 在常识推理、语言理解、数学和编程等广泛的基准测试中显著优于当前最先进的纯注意力机制和状态空间模型(SSM)模型。此外,Samba 在处理长上下文方面表现出卓越的效率,与最先进的 T...

2024-07-08 12:10:52 65

转载 7月9日直播|加速比5倍,提升推理速度,无损大语言模型加速算法的创新与应用,EAGLE & EAGLE-2...

报告主题:EAGLE&EAGLE-2: 无损大模型推理加速算法报告日期:7月9日(周二)14:30-15:30报告要点:本报告将介绍无损大语言模型加速算法EAGLE及其后续工作EAGLE-2(《EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty》和《EAGLE-2: Faster Inference of ...

2024-07-08 12:10:52 105

转载 7月12日直播|大模型评测技术研讨会

2024-07-08 12:10:52 68

转载 7月10日直播|算法简单,矫正流,基于直线概率流的超快速Stable Diffusion

报告主题:基于直线概率流的超快速Stable Diffusion报告日期:7月10日(周三)10:00-11:00在这次演讲中,我将讨论矫正流 (Rectified Flow) 。这个算法出奇的简单,它解决了使用非配对数据点学习两个分布之间传输映射的问题。这种问题包括生成式模型和无监督数据迁移。矫正流符合一个常微分方程(ODE),它被训练尽可能沿着直线路径前进,仅使用监督学习和L2目标函数。矫正流...

2024-07-08 12:10:52 70

原创 独家丨专访宇树创始人王兴兴:偏科不可怕,只要把擅长的事做到极致

如果用一句话总结王兴兴的创业故事,也许是“早思考早行动”。2009、2010年左右,机器人赛道尚鲜少有人问津,公众对机器人的认知尚来源于科幻电影,而那时的王兴兴已经开始了积极的动手制作和科研立项,开启了被机器人“硬控”的十余年。“我大一时候就开始动手制作了,也在思考未来要做什么方向。”经过琢磨,他自研出了当时“最廉价”舵机做的双足机器人,得出结论,对传统舵机的被控性能感到绝望,完全不适合用于机器人...

2024-07-05 13:15:36 1461

转载 英国《金融时报》专访张宏江:AI系统永远不应该欺骗人类

2024北京智源大会前夕,英国《金融时报》记者Ryan McMorrow与Nian Liu对智源学术顾问委员会主任张宏江进行了专访。采访内容刊登于6月27日的时报。为方便阅读,我们对内容进行了编译(英文版全文请点击“阅读原文”)。‍张宏江是计算机科学家和企业家,他也是中国最直言不讳地主张安全开发人工智能技术的重要人士之一。在丹麦获得博士学位后,他在新加坡和加利福尼亚州帕洛阿尔托工作了几年。21世...

2024-07-01 17:03:26 250

转载 视觉重回第一赛道?颜水成领衔视觉大模型论坛丨2024智源大会回顾

算法在哪个领域起源再向其它领域迁移,在过去十年间发生了巨变。计算机视觉在研究的领域曾经一直是研究最前沿,最新的算法从视觉领域产生,然后再转移到语音、NLP和其他的领域。自从Transformer诞生之后,风水轮流转,变成everything comes from NLP,新算法再慢慢转移到视觉。但是今年的状况有变化,自从年初Sora出现之后,计算机视觉似乎又要重回第一赛道。因此本次视觉大模型会场主...

2024-06-27 12:08:02 130

转载 人类有爱、悲伤和死亡意识,AI无法对齐丨记智源大会意识与通用人工智能论坛...

意识,目前来说一个人类独有的词汇。围绕人工智能与意识产生过许多讨论和争议,前又深度学习三巨头之一Hinton认为“AI有意识,且可复制人类心智。”后有杨立昆、吴恩达认为AI缺乏对世界的基本认识,甚至还不如家猫认知水平。面向这些争议,6月14日在北京智源大会的意识与通用人工智能中,来自清华大学、北京大学的学者教授从“本源”出发,讨论了意识和AGI的关系。(回放:https://event.baai....

2024-06-25 12:20:41 123

转载 活动报名|如何减轻幻觉?揭秘LLM局限性,探讨实现效果及对安全性影响

报告主题:幻觉无法避免,探讨LLM的根本局限报告日期:6月26日(周三)14:30-15:30报告要点:幻觉是大语言模型(LLM)一个公认的重要缺陷。已有许多研究试图解释并减轻幻觉。但到目前为止,这些工作主要是经验性的,它们无法回答一个基本问题,即是否可以从LLM中完全消除幻觉。在本研究中,我们将幻觉问题形式化,并证明在LLMs中消除幻觉是不可能的。具体而言,我们定义一个形式化的世界,并定义幻觉为...

2024-06-24 13:51:23 90

原创 姚期智、张亚勤、薛澜、Stuart Russell、Max Tegmark,DeepMind研究员等共话全球AI治理丨大会回顾...

为什么AI安全已迫在眉睫?如何构建全球范围内的合作?民众该如何参与到其中?未来的AI系统将是什么样的?2024年6月15日,智源大会第二天,多位AI安全领域专家进行圆桌讨论,连接中国北京和美国加利福尼亚,共同探讨如何构建可控AI,建立全球范围内合作。这次AI安全论坛由北京智源人工智能研究院与加州的非营利组织AI安全国际论坛(Safe AI Forum)和FAR AI共同举办。AI安全国际论坛致力于...

2024-06-24 13:51:23 757

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除