《智源社区周刊：预训练模型》第3期：智源x清华开源万亿AI模型基石FastMoE、英国机构发起世界最大图灵测试...

智源社区

于 2021-03-05 14:00:42 发布

阅读量586

点赞数 1

文章标签：编程语言 python 机器学习人工智能深度学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/114529385

版权

超大规模预训练模型是当前人工智能领域研究的热点，为了帮助研究与工程人员了解这一领域的进展和资讯，智源社区整理了第3期《智源社区周刊：预训练模型》，从论文推荐、研究动态、热点讨论等几个维度推荐最近一周内发生在预训练模型领域值得关注的信息。

本期贡献者：亓宗帅常政

论文推荐

随着预训练技术逐渐成熟，越来越多的研究转向预训练技术的现实应用。本期推荐五篇预训练相关论文，具体方向分别是Image Caption、语音识别、程序语言表示、多模态预训练数据集、预训练模型评估。

标题：VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and Linguistic Knowledge from Pretraining（VisualGPT：在Image Captioning中用预训练来平衡视觉和语言知识，提高数据效率）

简介：本文提出VisualGPT，致力于利用大规模预训练语言模型来提高Image Caption任务的数据使用效率。

点击这里阅读详细内容

标题：Generating Human Readable Transcript for Automatic Speech Recognition with Pre-trained Language Model（语音识别中利用预训练语言模型生成人类可读文本）

简介：本文利用预训练模型增强语音

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

智源社区

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

参与评论您还未登录，请先登录后发表或查看评论

博客

揭开OpenAI草莓模型神秘面纱——重塑大语言模型的逻辑能力

09-11

716

OpenAI即将发布“草莓”模型来源：medium据报道，OpenAI计划在未来两周内发布其新的AI模型Strawberry（草莓）。据 Seeking Alpha周二（9 月 10 日）援引The Information 的一篇付费文章报道，新模型可以解决从未遇到过的数学问题，并且可以在回答之前「思考」问题。让模型具备「思考」能力一直是一个潜在的瓶颈，据悉草莓模型的诞生是为了应对现有人工智能技...

博客

活动报名｜Google DeepMind高级研究科学家，详解Vizier服务算法实现细节

09-09

报告主题：Google Vizier服务算法的实现细节报告日期：09月12日（周四）10:30-11:30报告要点：Google Vizier has performed millions of optimizations and accelerated numerous research and production systems at Google, demonstrating the su...

博客

活动报名｜Meta语音识别，正确率显著提升，零样本跨语言MMS Zero-shot

09-09

报告主题：零样本跨语言语音识别（MMS Zero-shot）报告日期：09月11日（周三）10:30-11:30报告要点：尽管自动语音识别（ASR）在语言覆盖方面取得了重大进展，但仍有许多语言未被覆盖。为了解决这一问题，我们提出了 MMS Zero-shot，这是一种简单的使用罗马化（romanization）而非复杂的音素化的方法。我们首先在包含1078种语言的标注数据集上训练了一个多语言的声学...

博客

活动报名｜AI+医学影像，扩散模型赋能医学影像生成，康奈尔大学

09-09

报告主题：AI+医学影像｜扩散模型赋能医学影像生成的机遇与挑战报告日期：09月10日（周二）10:30-11:30报告要点：使用基于深度学习的计算机辅助诊断模型是一种普遍趋势，为了训练和维护这类模型，获得足够数量的准确标记的医学影像数据是一项不可避免的任务。这里的一个主要挑战是，获取和标记医学数据既昂贵又困难。另外，即使有高质量的标记样本可用，通常也出于数据安全的考量不能轻易地与其他研究人员共享...

博客

亲历者揭秘OpenAI的崛起：成功源自开放性探索，比如AGI和登月计划

09-05

181

沿着 Scaling Law、卷模型性能，可能会走到「死胡同」。文 | 黎诗韵编辑| 郑玄我们被倡导要想明白自己的目标是什么、并做出计划。然而，两位人工智能研究者却认为，这只适用于普通的小愿望。一旦涉及过于高远的、不确定能否实现的目标，比如打造 AGI（通用人工智能）、登月计划等等——那么根据兴趣进行自由的、开放性的探索，才更能实现想要的。他们把这一观点写成了《为什么伟大不能被计划》一书。在这本...

博客

智源研究院推出全球首个包含文生视频的模型对战评测服务

09-05

2024年9月4日，智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场，覆盖国内外约40款大模型，支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测，包含简单理解、知识应用、代码能力、推理能力多种预设问题。除网页端，该服务还率先开放了国内首个移动端访问入口，为用户提供高效便捷的模型对战评测体验。秉承FlagEval评测体系的...

博客

直播报名｜从智能运维体到结构化数据学习，基于大模型数据库诊断系统D-Bot...

09-02

108

报告主题：从智能运维体到结构化数据学习，基于大模型数据库诊断系统D-Bot报告日期：09月05日（周四）10:30-11:30报告要点：数据库管理员（DBA）在管理、维护和优化数据库系统方面扮演着重要的角色。然而，对于DBA来说，管理大量数据库并及时响应是困难和繁琐的（在许多在线情况下等待几个小时是不可容忍的）。此外，现有的经验方法只支持有限的诊断场景，而且更新数据库版本的诊断规则也需要耗费大量的...

博客

实现机器人领域的ChatGPT时刻，需要大模型+强化学习丨明星教授Sergey特邀报告...

09-02

1047

想象一下，如果想构建一个AI系统来控制机器人探索另一个星球。这样的机器人需要做些什么呢？它需要储备一些知识，能够理解环境中物体之间的物理关系，还需要能处理突发事件。如果它要去另一个星球，我们不可能预测那里将发生的一切，所以它需要能适应新的事物。人类在这方面做得很好，但这种灵活性和适应性对当前的AI系统来说是一个巨大的挑战。那么，最近AI的重大进展是否有助于我们构建这种灵活的自治系统呢？在智源特邀报...

博客

活动报名 | Triton 中国生态 Meetup 第二期

08-29

时间地点时间：2024年9月7日（周六） 14:00-17:00地点：智源大厦（北京市海淀区成府路150号）活动形式：线下+线上直播（直播观看链接于会前短信发送给大家）活动详情近年来，OpenAI 的 Triton 语言在全球 AI 领域迅速崛起，其影响力显著，然而在国内，围绕 Triton 的开发者社区尚显冷清，底层芯片适配的技术交流渠道亦亟待拓宽。智源研究院，深耕大模型研发前沿，已在 Trit...

博客

直播报名｜多智能体，SearchGPT平替，开源AI搜索引擎框架MindSearch，3周4.1k星

08-26

报告主题：多智能体AI搜索引擎，MindSearch（思·索）报告日期：8月28日（周三）10:30-11:30报告要点：7 月 25 日，OpenAI 发布了其 AI 搜索的原型系统 SearchGPT，SearchGPT 将 LLM 和搜索引擎结合，试图成为我们搜集信息、探索知识、解决问题的重要工具。然而，鉴于年初的 Sora 到目前都还没未真正实现大规模体验。那我们有没有平替免费尝鲜呢？基于...

博客

Pi创始人斯坦福Chelsea Finn专访：工程师家庭出发，和10年战友Sergey走过机器人训练漫漫长夜丨独家...

08-26

864

出生于加州一个工程师世家的Chelsea Finn，从小最喜欢的是拼图和数独游戏，和父母比赛谁算得快似乎成了家庭餐桌上的保留节目，而真正的科研启蒙则来源于中学时代的机器人编程竞赛。「我中学时用乐高玩具钻研过机器人技术。六人小组，FIRST乐高联赛中，给机器人编程去完成某些任务。这段经历对我的研究生涯很有帮助，尤其是如何调试。这些机器人系统往往起初不能运行，你需要不断调试，并改正方案。」关于调试系统...

博客

智源千万级指令微调数据集Infinity-Instruct持续迭代，Llama3.1仅微调即可接近GPT-4...

08-21

指令微调是引导语言模型落地、构建高性能对话模型的关键一步。针对目前开源的指令数据集质量低、覆盖领域少、数据信息不透明等问题，智源研究院推出了千万级指令微调数据集Infinity Instruct。该数据集今年6月发布，近日完成了新一轮迭代，包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。Infinity-Instruct-7M包...

博客

活动报名｜一夜爆火的KAN比MLP更好？KAN与MLP性能比较

08-21

报告主题：公平对比KAN与MLP，KAN适合符号函数拟合，深度学习任务中MLP仍为通用首选报告日期：8月27日（周二）10:30-11:30报告要点：我们对 Kolmogorov-Arnold Networks（KAN）与 Multilayer Perceptron（MLP）在机器学习、计算机视觉、音频处理、自然语言处理和符号函数拟合任务上的性能进行了更公平和更全面的对比研究。实验过程，通过控制神...

博客

14万引用Sergey教授专访：好研究没有妙计，不好的研究却千篇一律丨独家

08-16

504

“做研究就像买彩票，如果中奖奖金本身就低，就不要买那个彩票。”学术狂魔、强化学习领军者，来自UC伯克利的Sergey Levine副教授在形容如何做好研究时，做出了这样一个生动的比喻。做科研是一个漫长的学术祛魅的过程。在他看来，大部分的研究都会失败。面对极低的成功率，需要研究者放平心态，承担风险。在过去的很多年间，Sergey一直保持着极高的论文发表速率。ICLR 2021 上他是论文接收第一人（...

博客

直播报名｜幻觉即泛化，知识掩盖导致大模型的组合幻觉，热门工作

08-15

报告主题：幻觉即泛化，知识掩盖导致大模型的组合幻觉报告日期：8月20日（周二）10:30-11:30报告要点：为什么大语言模型在全部正确的训练数据上仍会产生幻觉？本次讲座会详细地讨论大模型产生组合幻觉的本质原因，并会讨论我们如何利用这一发现预测尚未发生的幻觉现象，以及如何使用无需训练的测试时间方法消除大模型组合幻觉。本次讲座将深入讨论我们如何发现并验证了训练过程中无处不在的数据不平衡导致模型产生组...

博客

直播报名｜重新思考GNN，不卷积的图神经网络，实现高效计算，热门工作

08-15

178

报告主题：重新思考GNN，不卷积的图神经网络报告日期：8月21日（周三）10:30-11:30报告要点：重新思考卷积图神经网络（GNN）：它们表达能力有限，容易出现过度平滑和过度压缩，并且需要特殊的稀疏模块来实现高效运算。我们设计完全不依赖卷积运算符的图学习模块，称为随机游走统一记忆（RUM），其中RNN将终止于每个节点的拓扑特征和语义特征合并。基于丰富的RNN和图拓扑学研究，我们理论上证明并实验...

博客

周四直播｜ICML 2024，CMU&Meta 《语言模型物理学》系列，超越人类的二级推理，揭秘大语言模型推理机制...

08-12

197

报告主题：超越人类的二级推理，揭秘大语言模型推理机制报告日期：8月15日（周四）10:30-11:30报告要点：最新的语言模型在小学数学测试题集（如GSM8K）上表现出了近乎完美的准确率，这表明它们已具备解决数学推理问题的能力。为了研究语言模型是如何解决这些问题的，我们设计了一系列变量控制实验并探讨了以下问题：一、语言模型究竟是学会了真正的推理能力，还是仅仅依赖于答题模板的记忆？二、模型内在的推理...

博客

周三直播｜Stability AI，具有多帧和多视图一致性的动态3D内容生成，SV4D

08-12

437

报告主题：Stability AI｜时间和空间一致性动态3D内容生成，SV4D报告日期：8月14日（周三）10:30-11:30报告要点：在大语言模型不断给人们带来惊喜的同时，大语言模型的资源耗费和部署成为了其大规模应用的瓶颈。为了应对不断增加而导致的移动设备上对高效大型语言模型 (LLM) 日益增长的需求，我们设计参数少于十亿的 LLM，称为 MobileLLM，与之前的 125M/350M 最...

博客

本周活动｜使用强化学习技术微调扩散模型教程，普林斯顿大学，fine-tuning算法...

08-04

报告主题：使用强化学习技术微调扩散模型教程与综述报告日期：8月7日（周三）10:30-11:30报告要点：扩散模型具有出色的生成能力。然而，当被要求在复杂条件下满足特定的高精度目标时，它们往往无法完成。想象一下，培训员工不仅要执行任务，还要根据动态的市场需求创新提高生产力的方法。这类似于强化学习为生成模型带来的效果。通过结合强化学习算法（如近端策略优化PPO），我们现在可以指导扩散模型不仅生成样本...

博客

07-28

报告主题：AI智能体的工具使用及其高质量数据生成方法报告日期：8月2日（周五）10:30-11:30报告要点：本次讲座将深入探讨论文《APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets》中提出的进展和方法。APIGen旨在通过生成高质量、多样化的数据集来增强AI智能体模...