PaperWeekly-CSDN博客

转载最全！LLaMA 3/2/1模型结构总览 & 亮点分析

上个月，MetaAI开源了第三代Llama 3系列，是目前为止最强的开源大语言模型！传奇研究员，AI开源倡导者吴恩达表示：“Llama 3的发布是自己这辈子收到过的最好的礼物，谢谢你Meta！”不过以ChatGPT为代表的一众大语言模型已对自然语言处理领域下的传统任务造成不同程度上的冲击。我们邀请到了国家实验室青年研究科学家、顶会审稿人Tingberg导师，为我们带来精彩课程——大模型时代科研角度...

2024-05-24 12:38:56

转载全球“最难刷分模型测评”出炉！国产黑马与GPT-4o同列金字塔尖

上周，一个名为“im-also-a-good-gpt2-chatbot”的神秘模型突然现身大模型竞技场 Chatbot Arena，排名直接超过 GPT-4-Turbo、Gemini 1 .5 Pro、Claude 3 0pus、Llama-3-70b 等各家国际大厂的当家基座模型。随后 OpenAI 揭开“im-also-a-good-gpt2-chatbot”神秘面纱——正是 GPT-4o 的...

2024-05-23 13:13:07 22

转载 TPAMI 2024 | 清华提出EfficientTrain++，视觉基础网络最高3倍无损训练加速

©作者 |王语霖单位 |清华大学博士生来源 |机器之心本文主要介绍刚刚被 IEEE Transactions on Pattern Analysis and Machine Intelligence （TPAMI）录用的一篇文章。论文题目：EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbo...

2024-05-23 13:13:07 20

转载为啥本科生都能发顶会，而博士一篇都没有？

“已经5月了，大家的论文还顺利吗？”最近经常收到读者的留言 : 抱怨科研真是太难了，竞争压力大，想发SCI/CCF，拼命想选题，读文献，写论文，仍旧无法把论文写得又快又好，更别说顶刊顶会了!其实他不是个例，大家也会有这样的烦恼：前沿顶会、期刊论文、综述文献浩如烟海，不知道学习路径，无从下手？没时间读、不敢读、不愿读、读得少、读不懂、读不下去、读不透彻一篇完整的论文？CVPR、ICCV、ECCV、I...

2024-05-23 13:13:07 6

转载北京内推 | 深度求索DeepSeek招聘LLM4Math方向实习生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！深度求索DeepSeek是一家探索通用人工智能（AGI）本质的公司，以开源汇聚更多的创造力和生产力，并致力于将研究、工程和商业三者融为一体。我们相信，AGI 是数据x算法x算力的完美实践，科研+工程+组织的优雅艺术。我们正在寻找并长期培养优秀的数据研发人才，与我们一起进行高水平...

2024-05-23 13:13:07 13

转载博士申请 | 复旦大学智能人机交互实验室招收2025级硕博生（夏令营/推免）

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！复旦大学探索以人为中心的智能——加入复旦大学计算机科学技术学院 - 智能人机交互实验室。通用人工智能（AGI）时代，我们定义大语言模型与智能可穿戴技术相融合的人机交互新范式：“See what you see，Hear what you hear, Feel how you f...

2024-05-22 22:50:33 45

原创 AAAI 2024 | 面向神经网络的全贝叶斯显著性检验方法

©PaperWeekly 原创 ·作者 |刘泽华、李梓萌等单位 |北航BIGSCity实验室显著性检验可以用于判断一个命题在给定观察数据下是否为真。然而，传统的显著性检验往往需要推导检验统计量的分布形式，难以处理复杂的非线性关系。在本文中，我们提出面向神经网络的全贝叶斯显著性检验方法，称为 nFBST (neural FBST)，以克服传统检验方法对建模非线性关系的局限性，是首篇将深度神经网...

2024-05-22 22:50:33 433

转载李飞飞空间智能系列新进展：吴佳俊团队发布BVS套件全面评估CV模型

©来源|机器之心在不久之前的2024 TED 演讲中，李飞飞详细解读了空间智能（Spatial Intelligence）概念。她对计算机视觉领域在数年间的快速发展感到欣喜并抱有极大热忱，并为此正在创建初创公司。在此演讲中，曾提到斯坦福团队的一个研究成果 BEHAVIOR，这是他们「创建」的一个用来训练计算机和机器人如何在三维世界中行动的行为和动作数据集。如今，吴佳俊带领团队发表了后续研究—...

2024-05-22 22:50:33 6

转载登顶Top2！MiniCPM-V 8B新版本：GPT-4V水准小钢炮，8G显存，4070轻松推理！

时隔 1 个月，面壁小钢炮 MiniCPM 系列上新，带来MiniCPM-Llama3-V 2.5 8B，最强端侧多模态模型。小钢炮系列通过一系列自研技术，所开创的高清图像识别（1344*1344 分辨率）、强大的 OCR 能力等，本次仍得到了延续。8B 体量的新一代 MiniCPM-Llama3-V 2.5，仍带来一系列惊艳亮点。最强端侧多模态综合性能：超越多模态巨无霸 Gemini Pro ...

2024-05-22 22:50:33 40

转载 Transformer+时间序列登上Nature子刊！

时空预测引领了新的热点，时间序列预测领域的首个大模型 TimeGPT 引起业界热议，Transformer+时序，扩散模型+时序更是顶会新方向大热“种子”选手，时序+多方向正在成为这个AI界瞩目的黑马！本文整理了时间序列的时序预测 / 时序-Transformer / 时序-大模型 / 时序-扩散四大方向的最新论文204篇。扫码回复“时序”领204篇论文合集时间序列预测论文ICLR2024Cli...

2024-05-21 12:33:19 18

转载博士申请 | 英国伯明翰大学冯悦老师招收NLP/LLM方向全奖博士/研究实习生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！伯明翰大学伯明翰大学（University of Birmingham）是一所于1900年创立在英国第二大城市伯明翰的一所研究型公立大学。该校是英国第一所红砖大学，是罗素集团、米德兰兹创新联盟、全球大学高研院联盟和Universitas 21成员。2024QS世界大学排名第84...

2024-05-21 12:33:19 52

转载顶刊TPAMI 2024 | PERF：一张2D全景图可合成高质量的360度3D场景

研究背景随着深度学习与 3D 技术的发展，神经辐射场（NeRF）在 3D 场景重建或逼真新视图合成方面取得了巨大的进展。给定一组 2D 视图作为输入，神经辐射场通过优化隐式函数来表示 3D 场景。然而，在很多情况下，我们只有单张 2D 视图。一些工作尝试从具有 3D 先验的单张图像训练神经辐射场。他们主要关注有限的视野,因此仅需考虑少量的遮挡，这极大地限制了它们在具有大尺寸遮挡的真实 360 度...

2024-05-21 12:33:19 14

转载突破性AGI综述：UIUC 120页长文揭示离AGI仅一步之遥？

©作者 | UIUCULab团队单位|UIUC研究方向 | 大模型智能体系统近日，一篇关于 AGI 的综述观点性论文火了。文章深入探讨 AGI 发展历史和现状，探索 “AGI 离我们有多远以，及如何安全通往 AGI”。在刚刚结束的 ICLR 2024 workshop 上全场座无虚席，大家都对一个话题感兴趣“我们距离 AGI 还有多远”。在场图灵奖教授 Yoshua Bengio，以及 C...

2024-05-21 12:33:19 20

转载杭州内推 | 蚂蚁集团招聘代码大模型方向研究型实习生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！蚂蚁集团蚂蚁集团起步于2004年诞生的支付宝，源于一份为社会解决信任问题的初心，经过近二十年的发展，已成为世界领先的互联网开放平台。我们通过科技创新，助力合作伙伴，为消费者和小微企业提供普惠便捷的数字生活及数字金融服务；持续开放产品与技术，助力企业的数字化升级与协作；在全球广泛...

2024-05-20 21:36:48 15

转载当推荐系统遇见大语言模型：通往未来的三条路径

©作者 | 张月鹏单位 |得物研究方向 | 搜推算法前言自从大语言模型爆火之后，大家对大语言模型（LLM）如何成功应用在推荐系统进行了不少尝试。个人一直觉得 LLM 在工业界推荐系统大部分情况还是离线应用，生成一些特征或者文本。至于其直接用作召回和排序模块，个人对这块的观点一直是比较悲观的。出于两点考虑：1）推理耗时问题，大模型的推理耗时难以满足推荐系统快速响应的体验要求；2）基于 ID 和用户...

2024-05-20 21:36:48 18

转载博士申请 | 深圳大学光明实验室媒体智能团队招收2024级大模型方向博士生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！深圳大学深圳大学计算机与软件学院是培养高尖端计算机软件人才的摇篮。1983年，深圳大学计算机专业由清华援建。2008年12月，深圳大学计算机与软件学院正式成立，由中国科学院院士陈国良教授担任首任院长。经过10多年建设，深圳大学计软学院从无到有取得全方位迅猛发展，现有大数据系统计...

2024-05-20 21:36:48 33

转载 Meta等发布巨齿鲨Megalodon！无限上下文长度的高效大模型预训练和推理

©作者 | Xuezhe Ma单位 | 南加州大学研究方向 | NLP, ML论文标题：Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length论文地址：https://arxiv.org/pdf/2404.08801论文源码：https://github.com/XuezheMax/megal...

2024-05-20 21:36:48 11

转载微软联合清华提出多头混合专家机制，大幅提升专家激活率

©作者 |Panda W来源 |机器之心混合专家（MoE）是个好方法，支持着现在一些非常优秀的大模型，比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。稀疏混合专家（SMoE）可在不显著增加训练和推理成本的前提下提升模型的能力。比如 Mixtral 8×7B 就是一个 SMoE 模型，其包含 8 个专家（共 7B 参数），而其表现却可以超过或比肩 LLaMA-2 7...

2024-05-19 18:03:12 15

转载 ACL 2024 | 多目标直接偏好优化MODPO：大语言模型的多目标对齐

©作者 |刘杰单位 |香港中文大学MMLab研究方向 |大语言模型、强化学习论文链接：https://arxiv.org/pdf/2310.03708.pdf代码链接：https://github.com/ZHZisZZ/modpTL;DR我们提出 MODPO（多目标直接偏好优化），它以最小的代价改进 DPO（直接偏好优化），以完成多目标对齐。在实现上，MODPO 只需要在 DPO 的基础...

2024-05-19 18:03:12 19

转载北京内推 | 微软亚洲研究院DKI组招聘Excel AI算法实习生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！微软亚洲研究院Data Analytics Research是DKI (Data, Knowledge & Intelligence) Group 下专注于数据分析的研究团队，深度参与了Microsoft多个产品（如Excel, Forms, Bing, Azure, ...

2024-05-19 18:03:12 12

原创缓存与效果的极限拉扯：从MHA、MQA、GQA到MLA

©PaperWeekly 原创 ·作者 | 苏剑林单位 | 科学空间研究方向 | NLP、神经网络前几天，幻方发布的 DeepSeek-V2[1] 引起了大家的热烈讨论。首先，最让人哗然的是 1 块钱 100 万 token 的价格，普遍比现有的各种竞品 API 便宜了两个数量级，以至于有人调侃“这个价格哪怕它输出乱码，我也会认为这个乱码是一种艺术”；其次，从模型的技术报告看，如此便宜的价格背...

2024-05-18 20:07:37 670

转载 SIGIR 2024 | 显式且细粒度的建模！属性-观点驱动的细粒度序列推荐

©作者 |张晓堃单位 |大连理工大学·信息检索研究室研究方向 |推荐系统论文标题：FineRec: Exploring Fine-grained Sequential Recommendation收录会议：SIGIR 2024论文地址：https://arxiv.org/abs/2404.12975代码地址：https://github.com/Zhang-xiaokun/FineRec给大...

2024-05-18 20:07:37 11

转载北京内推 | 阿里通义实验室对话智能团队招聘大语言模型研究型实习生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！阿里巴巴阿里巴巴通义实验室对话智能团队，主要研究方向为大模型、代码智能（Code Intelligence）、对话智能（Conversational AI）及 AI Agents 等。过去三年团队围绕上述研究方向发表80+篇国际顶会论文，其中EMNLP2022一次中稿10篇，...

2024-05-18 20:07:37 28

转载 ICML 2024 | 大语言模型预训练新前沿：最佳适配打包重塑文档处理标准

©来源 |机器之心在大型语言模型的训练过程中，数据的处理方式至关重要。传统的方法通常通过将大量文档拼接并切分成等同于模型的上下文长度的训练序列。这虽然提高了训练效率，但也常导致文档的不必要截断，损害数据完整性，导致关键的上下文信息丢失，进而影响模型学习到的内容的逻辑连贯性和事实一致性，并使模型更容易产生幻觉。AWS AI Labs 的研究人员针对这一常见的拼接-分块文本处理方式进行了深入研究， ...

2024-05-18 20:07:37 10

原创 Transformer是推断还是记忆？初始化大小很重要

©作者 |张众望，许志钦，GPT-4o（负责幽默部分）单位 |上海交大深度学习基础理论团队Transformer 架构在当前大语言模型中的地位，堪比麦当劳里的牛肉饼——谁不爱呢？这位“全能选手”能解数学题、写诗作赋，简直是 AI 界的“跨界网红”。不过，要揭开它才华横溢的秘密，可比哄孩子吃饭还费劲。直接研究真实的大语言模型，难度堪比在菜市场里向大妈们讲解狭义相对论——你会被讨价还价的嘈杂声淹没...

2024-05-17 20:36:35 654

转载博士申请 | 上海科技大学屠可伟老师招收NLP方向24级博士/25级硕博

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！上海科技大学上海科技大学（ShanghaiTech University，简称上科大、ShanghaiTech）是一所由上海市人民政府与中国科学院共同举办、共同建设，由上海市人民政府主管的全日制普通高等学校，2013年9月30日经教育部批准同意正式建立，2022年2月14日入选...

2024-05-17 20:36:35 62

转载 IJCAI 2024 | 多智能体强化学习新范式：个性化训练与蒸馏执行

©作者 | 陈逸群单位 | 中国人民大学研究方向 | 信息检索、LLM、强化学习大家好，这里和大家分享一篇我们在多智能体强化学习（MARL）领域关于新的训练范式的文章（Accepted by IJCAI 2024）。论文标题：PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Lear...

2024-05-17 20:36:35 15

转载告别3D高斯Splatting算法，带神经补偿的频谱剪枝高斯场SUNDAE开源了

©作者 |杨润一、朱贞欣等来源 |机器之心本论文作者包括帝国理工学院硕士生杨润一、北航二年级硕士生朱贞欣、北京理工大学二年级硕士生姜洲、北京理工大学四年级本科生叶柏均、中国科学院大学本科大三学生张逸飞、中国电信人工智能研究院多媒体认知学习实验室（EVOL Lab）负责人赵健、清华大学智能产业研究院（AIR）助理教授赵昊等。最近，3D Gaussian Splatting (3DGS) 作为一种...

2024-05-17 20:36:35 13

转载博士申请 | 香港科技大学（广州）聂强老师招收人工智能全奖博士/博后/RA

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！香港科技大学（广州）香港科技大学（简称港科大、HKUST）自1991年创立以来，秉持锐意创新、与时并进、博大包容、坚持原创的理念，在教育、科研和知识转移等方面均取得长足进展。短短三十年间，港科大于全球高校排名节节上升，被公认为全球首屈一指的年轻学府。香港科技大学（广州）可以...

2024-05-16 13:14:08 42

转载 2024年大模型潜力方向：大浪淘沙后的SFT和RLHF

从一年前ChatGPT突然爆火，到不久前文生视频大模型Sora以霸屏之势吸引全球舆论，再到近日OpenAI发布的王炸GPT-4o，与AI大模型相关的议题越来越多地被大众所讨论，如果说2023年的大模型风暴还集中在“对话”上，那么，今年AI带来的亿点点震撼，就突破了文字乃至图像的范畴！大模型相关内容之所以那么火，与其相结合的技术原理绝对不容忽视，为了能让大家更能进一步了解时下大模型相关前沿热点，我们...

2024-05-16 13:14:08 13

转载无位置编码 (NoPE) 也有长度泛化问题？首个针对NoPE的长度外推方法

©作者 |FudanNLP单位 |复旦大学NLP实验室基于 Transformer 的大型语言模型（LLM）展示了强大的文本理解能力，颠覆了整个 NLP 领域的应用范式。然而，在长度有限文本上预训练的语言模型却无法像人类一样泛化到任意长度文本，如何解决长度泛化问题成为了 LLM 的一项主要挑战。目前主流的长度泛化工作认为：Transformer 模型中显式的位置编码（例如旋转位置编码 RoP...

2024-05-16 13:14:08 17

转载 ACM MM 2024深度多模态生成和检索研讨会，诚邀各界专家学者参与

简介The 2nd International Workshop on Deep Multimodal Generation and Retrieval (MMGR) at ACM Multimedia 2024 focuses on the advancements in deep multimodal learning, emphasizing the integration of diver...

2024-05-16 13:14:08 12

转载 CAA模式识别与机器智能专委会：首届深度学习模型压缩与部署技术会议

会议背景当下深度学习模型已成为推动人工智能技术进步的核心动力，然而深度学习模型尤其是大模型参数量急剧增加，它们对计算资源的需求也异常迫切，同时，云边端侧模型部署时，模型推理耗时的要求也越来越苛刻。模型压缩与部署的诸多技术需求应运而生。模型压缩与部署目的是将深度学习模型以更高效的方式进行部署，提高模型的推理速度，减少模型占用的存储空间，进而降低模型的部署成本，为企业带来明显的收益。为了促进模型压缩与...

2024-05-15 13:19:34 14

转载选择需要的Token参与训练：微软重塑语言模型训练法则，准确率飙升30%

©作者 |clvsit研究方向 |NLP, LLM以往的语言模型预训练方法对所有训练 token 统一采用 next-token 预测损失。作者认为“并非语料库中的所有 token 对语言模型训练都同样重要”，这是对这一规范的挑战。作者的初步分析深入研究了语言模型的 token 级训练动态，揭示了不同 token 的不同损失模式。利用这些见解，本文作者推出了一种名为 RHO-1 的新语言模型。...

2024-05-15 13:19:34 31

转载大模型微调到底有没有技术含量，或者说技术含量到底有多大？

随着大模型的飞速发展，在短短一年间就有了大幅度的技术迭代更新，从LoRA、QLoRA、AdaLoRa、ZeroQuant、Flash Attention、KTO、PPO、DPO、蒸馏技术到模型增量学习、数据处理、开源模型的理解等，几乎每天都有新的发展。我们总结了算法工程师需要掌握的大模型微调技能，并制作了大模型微调技能图谱，希望可以帮助大家将知识体系梳理清楚，为未来在大模型的工作与科研道路上节省时...

2024-05-15 13:19:34 22

转载深圳/香港/上海内推 | 商汤研究院基础语言模型团队招聘大语言模型算法研究员...

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！商汤科技作为人工智能软件公司，商汤科技以“坚持原创，让AI引领人类进步”为使命，旨在持续引领人工智能前沿研究，持续打造更具拓展性更普惠的人工智能软件平台，推动经济、社会和人类的发展，并持续吸引及培养顶尖人才，共同塑造未来。2024年4月23日，商汤科技带来全新升级的「日日新Se...

2024-05-15 13:19:34 22

转载 ICML 2024 | 通过随机微分方程统一贝叶斯流网络和扩散模型

©作者 |薛凯文单位|GSAI-ML论文题目：Unifying Bayesian Flow Networks and Diffusion Models through Stochastic Differential Equations论文作者：薛凯文*、周聿浩*、聂燊、闵旭、张晓露、周军、李崇轩论文链接：https://arxiv.org/abs/2404.15766代码链接：https:/...

2024-05-14 12:41:34 28

转载博士申请 | 多伦多大学孙强教授招收生成模型/LLM方向全奖博士/博后/实习生

合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！多伦多大学多伦多大学 (University of Tornoto) 统计科学系的统计学习与工程实验室(Statistics, Learning, and Engineering(StatsLE Lab))由孙强教授于 2019 年成立。多大的综合科研实力很强，在机器学习、数据...

2024-05-14 12:41:34 17

转载 Sora是世界模拟器吗？全球首篇综述全面解析通用世界模型

©作者 |机器之心编辑部来源 |机器之心世界模型，即通过预测未来的范式对数字世界和物理世界进行理解，是通往实现通用人工智能（AGI）的关键路径之一。在视频生成领域，OpenAI 发布的 Sora 引起了广泛关注，Sora 具有极强的仿真能力，可以展现出对物理世界的初步理解；视频生成领军企业 Runway 在技术博客中表示，文生视频系统 Gen-2 的下一代产品将会通过通用世界模型来实现。在自动...

2024-05-14 12:41:34 17

转载 CVPR、AAAI、ICLR 2024满分论文出炉！

众所周知，论文是人工智能学习的基石，因为论文展示了不同方向最新的研究成果，了解并且掌握这些学习成果，会对自己写论文助力不少。这次我整理了AAAI 2024 /CVPR 2024 / ICLR 2024 / WACV 2024 论文合集，总共2000多篇，论文内容涵盖了3D高斯、时序、大语言模型、多模态等方向，希望对大家的学习有所帮助。扫码回复“论文”领最新2024年2000篇顶会论文合集为了让大...

2024-05-14 12:41:34 51

空空如也

空空如也