• 博客(1233)
  • 收藏
  • 关注

转载 活动直播丨人工智能行业大模型创新应用大赛启动

2024年北京市人工智能应用场景联合研发平台发布活动暨2024年北京市人工智能行业大模型创新应用大赛启动仪式,将于9月26日在中关村展示中心举办。本次活动将充分发挥北京大模型创新动能强劲、应用场景丰富等综合优势,促进应用需求与领先人工智能技术匹配,打通人工智能应用落地“最后一公里”,推动形成标准化、规模化、跨界协同的应用落地路径,提升产业创新能力和落地能力,共绘本市人工智能融合发展新篇章。1活动议...

2024-09-25 12:01:35 7

原创 OpenAI研究员、思维树作者姚顺雨专访:人生是一场无限流游戏丨独家

「人生所有重大的选择,无论买房、选择工作,去做任何事情,都像一个文字游戏。从哲学的角度来看,人生就是一个无限流游戏,每天你都有很多选择,从某种程度上说是非常high level、 open-ended的。」谈及过往研究当中的灵感,思维树作者、OpenAI研究员姚顺雨在最近的智源专访中如是说。他认为,语言游戏之所以和其他游戏区别很大,正是因为语言的开放性。在他普林斯顿读博的第一年,正逢GPT-2刚刚...

2024-09-25 12:01:35 314

转载 行业革新,数据先行:智源研究院数据与行业应用 Workshop第三期

9月25日周三下午14点,智源人工智能研究院将在北京海淀区智源大厦举办“数据与行业应用 Workshop”第三期,与大家共话数据新基建和行业应用的未来。欢迎查看议程,扫码报名参加。...

2024-09-20 12:21:37 41

转载 活动报名|LLM Alignment综述及RLHF、DPO、UNA的深入分析

报告主题:LLM Alignment综述及RLHF、DPO、UNA的深入分析报告日期:09月24日(周二)10:30-11:30报告要点:报告将深入探讨以下两篇重要文章:1. A Comprehensive Survey of LLM Alignment Techniques: RLHF, RLAIF, PPO, DPO and More 以及 2. UNA: Unifying Alignment...

2024-09-20 12:21:37 32

转载 大模型去偏倚|基于因果引导的主动学习方法

报告主题:大模型去偏倚|基于因果引导的主动学习方法报告日期:09月20日(周五)10:30-11:30报告要点:大语言模型(LLMs)的训练目标是建模数据分布,因此将不可避免捕获预训练数据中存在的各类偏倚,例如性别偏倚、位置偏好等。这将影响LLMs的无害性与泛化性。解决这一问题的关键是识别出数据中存在的各类偏倚。一类传统偏倚识别方法依赖人类先验知识达到这一目的。但是数据偏倚的多样性与隐蔽性限制了此...

2024-09-18 16:42:07 57

原创 活动报名丨智源Workshop,从o1出发探索LLM推理与思维链

近期o1模型的发布,预示着AI在处理高度复杂问题上再次迈出一大步。大规模强化学习算法在一个数据极高的训练过程中,教会了模型如何利用其思维链进行富有成效的思考。北京时间9月19日(本周四)晚7点,智源社区将组织「智源Workshop:从o1出发,探索LLM推理与思维链」线上研讨会,邀请到多位一线模型研究者参会分享讨论。时间&地点时间:9月19日(本周四)晚7点(北京时间)地点:线上活动流程参...

2024-09-18 16:42:07 184

转载 活动报名|Meta万亿参数级生成式推荐系统,M-FALCON推理算法

报告主题:推荐系统|Meta万亿参数级生成式推荐系统报告日期:09月19日(周四)10:30-11:30报告要点:基于深度学习的大规模推荐系统在当代互联网生态(如在线内容平台和电子商务)扮演着不可或缺的角色。这些系统不仅优化了数十亿用户的个性化体验,还高效地促进了用户与所需内容或产品的匹配,从而实现多方利益的协同优化。然而,尽管现有的推荐模型已在海量用户行为数据(规模达每日数百亿条)和高维特征空间...

2024-09-13 14:49:39 48

转载 活动报名丨《Nature》正刊,强化学习之父Richard Sutton组最新工作

报告主题:Loss of Plasticity in Deep Continual Learning报告日期:09月18日(周三)10:30-11:30报告要点:In this talk, I will present our new work on loss of plasticity in deep continual learning, recently published in Natur...

2024-09-13 14:49:39 34

原创 揭开OpenAI草莓模型神秘面纱——重塑大语言模型的逻辑能力

OpenAI即将发布“草莓”模型 来源:medium据报道,OpenAI计划在未来两周内发布其新的AI模型Strawberry(草莓)。据 Seeking Alpha周二(9 月 10 日)援引The Information 的一篇付费文章报道,新模型可以解决从未遇到过的数学问题,并且可以在回答之前「思考」问题。让模型具备「思考」能力一直是一个潜在的瓶颈,据悉草莓模型的诞生是为了应对现有人工智能技...

2024-09-11 12:17:20 744

转载 活动报名|Google DeepMind高级研究科学家,详解Vizier服务算法实现细节

报告主题:Google Vizier服务算法的实现细节报告日期:09月12日(周四)10:30-11:30报告要点:Google Vizier has performed millions of optimizations and accelerated numerous research and production systems at Google, demonstrating the su...

2024-09-09 12:17:56 73

转载 活动报名|Meta语音识别,正确率显著提升,零样本跨语言MMS Zero-shot

报告主题:零样本跨语言语音识别(MMS Zero-shot)报告日期:09月11日(周三)10:30-11:30报告要点:尽管自动语音识别(ASR)在语言覆盖方面取得了重大进展,但仍有许多语言未被覆盖。为了解决这一问题,我们提出了 MMS Zero-shot,这是一种简单的使用罗马化(romanization)而非复杂的音素化的方法。我们首先在包含1078种语言的标注数据集上训练了一个多语言的声学...

2024-09-09 12:17:56 91

转载 活动报名|AI+医学影像,扩散模型赋能医学影像生成,康奈尔大学

报告主题:AI+医学影像|扩散模型赋能医学影像生成的机遇与挑战报告日期:09月10日(周二)10:30-11:30报告要点:使用基于深度学习的计算机辅助诊断模型是一种普遍趋势,为了训练和维护这类模型,获得足够数量的准确标记的医学影像数据 是一项不可避免的任务。这里的一个主要挑战是,获取和标记医学数据既昂贵又困难。另外,即使有高质量的标记样本可用,通常也出于数据安全的考量不能轻易地与其他研究人员共享...

2024-09-09 12:17:56 83

转载 亲历者揭秘OpenAI的崛起:成功源自开放性探索,比如AGI和登月计划

沿着 Scaling Law、卷模型性能,可能会走到「死胡同」。文 | 黎诗韵编辑| 郑玄我们被倡导要想明白自己的目标是什么、并做出计划。然而,两位人工智能研究者却认为,这只适用于普通的小愿望。一旦涉及过于高远的、不确定能否实现的目标,比如打造 AGI(通用人工智能)、登月计划等等——那么根据兴趣进行自由的、开放性的探索,才更能实现想要的。他们把这一观点写成了《为什么伟大不能被计划》一书。在这本...

2024-09-05 17:18:26 187

转载 智源研究院推出全球首个包含文生视频的模型对战评测服务

2024年9月4日,智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场,覆盖国内外约40款大模型,支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测,包含简单理解、知识应用、代码能力、推理能力多种预设问题。除网页端,该服务还率先开放了国内首个移动端访问入口,为用户提供高效便捷的模型对战评测体验。秉承FlagEval评测体系的...

2024-09-05 17:18:26 73

转载 直播报名|从智能运维体到结构化数据学习,基于大模型数据库诊断系统D-Bot...

报告主题:从智能运维体到结构化数据学习,基于大模型数据库诊断系统D-Bot报告日期:09月05日(周四)10:30-11:30报告要点:数据库管理员(DBA)在管理、维护和优化数据库系统方面扮演着重要的角色。然而,对于DBA来说,管理大量数据库并及时响应是困难和繁琐的(在许多在线情况下等待几个小时是不可容忍的)。此外,现有的经验方法只支持有限的诊断场景,而且更新数据库版本的诊断规则也需要耗费大量的...

2024-09-02 12:12:11 115

原创 实现机器人领域的ChatGPT时刻,需要大模型+强化学习丨明星教授Sergey特邀报告...

想象一下,如果想构建一个AI系统来控制机器人探索另一个星球。这样的机器人需要做些什么呢?它需要储备一些知识,能够理解环境中物体之间的物理关系,还需要能处理突发事件。如果它要去另一个星球,我们不可能预测那里将发生的一切,所以它需要能适应新的事物。人类在这方面做得很好,但这种灵活性和适应性对当前的AI系统来说是一个巨大的挑战。那么,最近AI的重大进展是否有助于我们构建这种灵活的自治系统呢?在智源特邀报...

2024-09-02 12:12:11 1065

转载 活动报名 | Triton 中国生态 Meetup 第二期

时间地点时间:2024年9月7日(周六) 14:00-17:00地点:智源大厦(北京市海淀区成府路150号)活动形式:线下+线上直播(直播观看链接于会前短信发送给大家)活动详情近年来,OpenAI 的 Triton 语言在全球 AI 领域迅速崛起,其影响力显著,然而在国内,围绕 Triton 的开发者社区尚显冷清,底层芯片适配的技术交流渠道亦亟待拓宽。智源研究院,深耕大模型研发前沿,已在 Trit...

2024-08-29 12:03:33 75

转载 直播报名|多智能体,SearchGPT平替,开源AI搜索引擎框架MindSearch,3周4.1k星

报告主题:多智能体AI搜索引擎,MindSearch(思·索)报告日期:8月28日(周三)10:30-11:30报告要点:7 月 25 日,OpenAI 发布了其 AI 搜索的原型系统 SearchGPT,SearchGPT 将 LLM 和搜索引擎结合,试图成为我们搜集信息、探索知识、解决问题的重要工具。然而,鉴于年初的 Sora 到目前都还没未真正实现大规模体验。那我们有没有平替免费尝鲜呢?基于...

2024-08-26 12:30:51 76

原创 Pi创始人斯坦福Chelsea Finn专访:工程师家庭出发,和10年战友Sergey走过机器人训练漫漫长夜丨独家...

出生于加州一个工程师世家的Chelsea Finn,从小最喜欢的是拼图和数独游戏,和父母比赛谁算得快似乎成了家庭餐桌上的保留节目,而真正的科研启蒙则来源于中学时代的机器人编程竞赛。「我中学时用乐高玩具钻研过机器人技术。六人小组,FIRST乐高联赛中,给机器人编程去完成某些任务。这段经历对我的研究生涯很有帮助,尤其是如何调试。这些机器人系统往往起初不能运行,你需要不断调试,并改正方案。」关于调试系统...

2024-08-26 12:30:51 881

转载 智源千万级指令微调数据集Infinity-Instruct持续迭代,Llama3.1仅微调即可接近GPT-4...

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题,智源研究院推出了千万级指令微调数据集Infinity Instruct。该数据集今年6月发布,近日完成了新一轮迭代,包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。Infinity-Instruct-7M包...

2024-08-21 13:29:20 103

转载 活动报名|一夜爆火的KAN比MLP更好?KAN与MLP性能比较

报告主题:公平对比KAN与MLP,KAN适合符号函数拟合,深度学习任务中MLP仍为通用首选报告日期:8月27日(周二)10:30-11:30报告要点:我们对 Kolmogorov-Arnold Networks(KAN)与 Multilayer Perceptron(MLP)在机器学习、计算机视觉、音频处理、自然语言处理和符号函数拟合任务上的性能进行了更公平和更全面的对比研究。实验过程,通过控制神...

2024-08-21 13:29:20 65

原创 14万引用Sergey教授专访:好研究没有妙计,不好的研究却千篇一律丨独家

“做研究就像买彩票,如果中奖奖金本身就低,就不要买那个彩票。”学术狂魔、强化学习领军者,来自UC伯克利的Sergey Levine副教授在形容如何做好研究时,做出了这样一个生动的比喻。做科研是一个漫长的学术祛魅的过程。在他看来,大部分的研究都会失败。面对极低的成功率,需要研究者放平心态,承担风险。在过去的很多年间,Sergey一直保持着极高的论文发表速率。ICLR 2021 上他是论文接收第一人(...

2024-08-16 16:46:25 520

转载 直播报名|幻觉即泛化,知识掩盖导致大模型的组合幻觉,热门工作

报告主题:幻觉即泛化,知识掩盖导致大模型的组合幻觉报告日期:8月20日(周二)10:30-11:30报告要点:为什么大语言模型在全部正确的训练数据上仍会产生幻觉?本次讲座会详细地讨论大模型产生组合幻觉的本质原因,并会讨论我们如何利用这一发现预测尚未发生的幻觉现象,以及如何使用无需训练的测试时间方法消除大模型组合幻觉。本次讲座将深入讨论我们如何发现并验证了训练过程中无处不在的数据不平衡导致模型产生组...

2024-08-15 18:10:26 70

原创 直播报名|重新思考GNN,不卷积的图神经网络,实现高效计算,热门工作

报告主题:重新思考GNN,不卷积的图神经网络报告日期:8月21日(周三)10:30-11:30报告要点:重新思考卷积图神经网络(GNN):它们表达能力有限,容易出现过度平滑和过度压缩,并且需要特殊的稀疏模块来实现高效运算。我们设计完全不依赖卷积运算符的图学习模块,称为随机游走统一记忆(RUM),其中RNN将终止于每个节点的拓扑特征和语义特征合并。基于丰富的RNN和图拓扑学研究,我们理论上证明并实验...

2024-08-15 18:10:26 184

原创 周四直播|ICML 2024,CMU&Meta 《语言模型物理学》系列,超越人类的二级推理,揭秘大语言模型推理机制...

报告主题:超越人类的二级推理,揭秘大语言模型推理机制报告日期:8月15日(周四)10:30-11:30报告要点:最新的语言模型在小学数学测试题集(如GSM8K)上表现出了近乎完美的准确率,这表明它们已具备解决数学推理问题的能力。为了研究语言模型是如何解决这些问题的,我们设计了一系列变量控制实验并探讨了以下问题:一、语言模型究竟是学会了真正的推理能力,还是仅仅依赖于答题模板的记忆?二、模型内在的推理...

2024-08-12 08:02:36 203

原创 周三直播|Stability AI,具有多帧和多视图一致性的动态3D内容生成,SV4D

报告主题:Stability AI|时间和空间一致性动态3D内容生成,SV4D报告日期:8月14日(周三)10:30-11:30报告要点:在大语言模型不断给人们带来惊喜的同时,大语言模型的资源耗费和部署成为了其大规模应用的瓶颈。为了应对不断增加而导致的移动设备上对高效大型语言模型 (LLM) 日益增长的需求,我们设计参数少于十亿的 LLM,称为 MobileLLM,与之前的 125M/350M 最...

2024-08-12 08:02:36 440

转载 本周活动|使用强化学习技术微调扩散模型教程,普林斯顿大学,fine-tuning算法...

报告主题:使用强化学习技术微调扩散模型教程与综述报告日期:8月7日(周三)10:30-11:30报告要点:扩散模型具有出色的生成能力。然而,当被要求在复杂条件下满足特定的高精度目标时,它们往往无法完成。想象一下,培训员工不仅要执行任务,还要根据动态的市场需求创新提高生产力的方法。这类似于强化学习为生成模型带来的效果。通过结合强化学习算法(如近端策略优化PPO),我们现在可以指导扩散模型不仅生成样本...

2024-08-04 13:00:40 73

转载 8月2日|热门工作,智能体Agent工具使用及其高质量数据生成方法,APIGen,xLAM...

报告主题:AI智能体的工具使用及其高质量数据生成方法报告日期:8月2日(周五)10:30-11:30报告要点:本次讲座将深入探讨论文《APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets》中提出的进展和方法。APIGen旨在通过生成高质量、多样化的数据集来增强AI智能体模...

2024-07-28 11:01:01 81

转载 直播|Meta新工作,350M小模型压缩部署移动端(MobileLLM, SpinQuant)性能比肩7B LLaMA-v2...

报告主题:大语言模型的压缩部署 (MobileLLM, SpinQuant)报告日期:8月8日(周四)10:30-11:30报告要点:在大语言模型不断给人们带来惊喜的同时,大语言模型的资源耗费和部署成为了其大规模应用的瓶颈。为了应对不断增加而导致的移动设备上对高效大型语言模型 (LLM) 日益增长的需求,我们设计参数少于十亿的 LLM,称为 MobileLLM,与之前的 125M/350M 最先进...

2024-07-28 11:01:01 88

转载 下周二直播|谷歌DeepMind&UIUC:决策智能,基于强化学习的VLM后训练

报告主题:决策智能:基于强化学习的VLM后训练报告日期:7月30日(周二)10:30-11:30报告要点:如何让VLM解决in-the-wild decision making任务?本次讲座会详细地讨论这个问题,从环境和算法上给出解决方案,并会讨论如何用这些方案解决现实问题,例如自动完成设备控制任务(如自动在手机上购物)。本次讲座将细致讨论用VLM解决in-the-wild决策任务的根本挑战,例如...

2024-07-28 11:01:01 58

转载 8月7日|使用强化学习技术微调扩散模型教程,普林斯顿大学,fine-tuning算法

报告主题:使用强化学习技术微调扩散模型教程与综述报告日期:8月7日(周三)10:30-11:30报告要点:扩散模型具有出色的生成能力。然而,当被要求在复杂条件下满足特定的高精度目标时,它们往往无法完成。想象一下,培训员工不仅要执行任务,还要根据动态的市场需求创新提高生产力的方法。这类似于强化学习为生成模型带来的效果。通过结合强化学习算法(如近端策略优化PPO),我们现在可以指导扩散模型不仅生成样本...

2024-07-28 11:01:01 72

转载 线下活动报名|智源研究院数据与行业应用Workshop,7月25日

2024-07-19 13:28:29 99

原创 多模态模型前沿思路-生成与理解丨青源Workshop第28期

青源Workshop丨No.28多模态模型前沿思路-生成与理解主题闭门研讨会当前,多模态生成与理解模型百花齐放,不同技术路线交相辉映,激发创新火花,北京时间7月23日(下周二)下午14点,智源社区将组织「青源Workshop:多模态模型前沿思路-生成与理解」小范围闭门研讨会,邀请到多位一线模型研究者参会分享。时间&地点时间:7月23日(下周二)下午14点(北京时间)地点:智源大厦(线上+...

2024-07-19 13:28:29 243

转载 “智星”科技人才招聘计划

2024-07-17 12:30:34 63

原创 直播|何恺明组 & MIT 热门开源工作,打破自回归图像生成瓶颈

报告主题:无需矢量量化的自回归图像生成方法报告日期:7月25日(下周四)10:30-11:30报告要点:传统观点认为,自回归的图像生成模型(AR)通常需要在离散的语义符上进行操作。我们观察到,虽然离散空间可以方便地表示语义符的概率分布,但它并不是自回归建模的必要条件。在这篇工作中,我们提出使用扩散过程来模拟每个语义符的概率分布,这使我们能够在连续空间中应用自回归模型。我们没有使用传统的离散交叉熵损...

2024-07-17 12:30:34 368

原创 活动报名|模拟世界,LLM能否替代人类搭建仿真环境?定量分析LLM生成基于文本的仿真环境的能力...

报告主题:大语言模型能模拟世界吗?定量分析大语言模型生成基于文本的仿真环境的能力报告日期:7月19日(周五)10:30-11:30报告要点:当训练的AI模型需要在复杂环境中做出规划决策时,高精度的仿真环境可以大幅降低在真实场景中实验的需求,从而降低训练成本,提升训练效率。然而,构建此类仿真环境成本高昂,且需要大量人工投入。与此同时,当今的大语言模型(LLM)使用的庞大的预训练数据包含了各类关于现实...

2024-07-15 11:31:29 224

原创 活动报名|揭秘Bengio团队最新评测工作:视觉字幕恢复VCR,现有大模型能否过关?...

报告主题:揭秘Bengio团队最新评测工作:视觉字幕恢复VCR,现有大模型能否过关?报告日期:7月19日(周二)10:30-11:30报告要点:本次报告中我将介绍我与Bengio团队合作的最新工作——视觉字幕恢复(Visual Caption Restoration, VCR)。该任务通过恢复图像中被部分遮挡的文本,挑战现有视觉语言模型(Vision-Language Models, VLM)的高...

2024-07-15 11:31:29 202

转载 生成式AI之父Jürgen Schmidhuber:机器学习编年史与宇宙未来丨智源独家

导读在 2024 年智源大会的特邀报告环节,阿卜杜拉国王科技大学 (KAUST) 人工智能研究所所长、瑞士人工智能实验室 IDSIA 科学主任、LSTM 作者、现代人工智能之父 Jürgen Schmidhuber 从编年史的角度讲述了现代人工智能的发展、其历史背景及其对宇宙未来的预期影响。1990-91年被誉为AI发展的“奇迹之年”,正是在此期间,Jürgen 引入了生成对抗神经网络(现已广泛用...

2024-07-11 12:01:30 105

转载 7月11日直播|简单而强大,混合神经网络架构,支持无限上下文的混合模型 Samba...

报告主题:Samba,一种简单有效的支持无限上下文的混合模型报告日期:7月11日(周四)10:30-11:30报告要点:Samba是一种简单而强大的混合神经网络架构,旨在对无限的上下文长度实现高效的语言建模。Samba 在常识推理、语言理解、数学和编程等广泛的基准测试中显著优于当前最先进的纯注意力机制和状态空间模型(SSM)模型。此外,Samba 在处理长上下文方面表现出卓越的效率,与最先进的 T...

2024-07-08 12:10:52 69

转载 7月9日直播|加速比5倍,提升推理速度,无损大语言模型加速算法的创新与应用,EAGLE & EAGLE-2...

报告主题:EAGLE&EAGLE-2: 无损大模型推理加速算法报告日期:7月9日(周二)14:30-15:30报告要点:本报告将介绍无损大语言模型加速算法EAGLE及其后续工作EAGLE-2(《EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty》和《EAGLE-2: Faster Inference of ...

2024-07-08 12:10:52 114

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除