Amusi（CVer）-CSDN博客

原创计算机视觉的学习资料（更新中）

计算机视觉（Computer Vision）：https://en.wikipedia.org/wiki/Computer_vision计算视觉相关条目：Outline of computer vision Category:Computer vision经典书籍《Multiple View Geometry in Computer Vision Second Edition》计算机视觉圣经全...

2018-01-23 21:09:03 3821 1

转载 2026 AAAI Fellow名单出炉！清华校友田奇等4位华人学者入选

在其学术生涯中，金教授长期担任多个重要学术会议与组织的领导职务，亦深度参与WWW、NeurIPS、ICML、IJCAI、AAAI、ICONIP等顶级会议的学术组织工作。在此之前，他在重庆大学获得了计算机科学的学士（2003年）和硕士学位（2006年）。她的主要研究兴趣为机器学习与人工智能及其在医疗健康、可持续发展（气候科学、交通等）和社交媒体分析等领域的应用，目前谷歌学术引用为3万多。：因对启发式搜索、路径规划及游戏算法的理论与算法的重要贡献，以及在这些领域的基准测试与教育资源建设。

2026-01-06 13:05:56 1

转载 StackOverflow彻底凉了，比18年前上线首月问题数量还少！

当时的问答机制非常高效，比如提问或者答案可以被投票，投票出来的高质量内容能够自然浮到顶部，贡献者会获得Reputation（声望值），这样一来，本质上是把技术影响力量化了。，不只是程序员专属，几乎覆盖了所有STEM领域，从编程到数学、物理、统计学，只要是技术相关的疑问，在Stack Overflow上都能找到同行探讨。从数据来看，Stack Overflow的问答数量一路下滑，直到如今跌破18年前的起点，在这其中，AI真得背锅。当初的程序员问答圣地，现在的提问数量甚至比18年前上线首月时的问题数量还要少。

2026-01-06 13:05:56 1

转载谷歌微软All in多模态！

这篇论文提出了AlignMamba框架，通过结合最优传输（OT）的局部token级对齐和最大均值差异（MMD）的全局分布级对齐，增强了Mamba架构在多模态融合中的跨模态关系建模能力，在保持线性计算复杂度的同时显著提升了融合效果，在完整和不完整多模态任务中均达到最先进性能，同时大幅降低GPU内存使用和推理时间。尤为值得一提的是，其任务场景非常广泛、故事性强、且缺乏统一的理论框架，可发论文的着手点很多，创新空间广阔，非常推荐想快速出成果的伙伴多关注。主要聚焦多模态对齐、多模态融合等核心技术的算法、模块。

2026-01-06 13:05:56 1

转载 AAAI 2026 | 小鹏&北京大学提出FastDriveVLA：专为VLA模型定制视觉token剪枝方法，让端到端自动驾驶更高效！

已经有大量研究尝试通过减少视觉 token 来加速 VLM 的推理，但在自动驾驶场景中都具有局限性：引入新设计的多模态投影器需要重新训练整个模型，基于注意力的剪枝策略容易受到无关信息的影响，基于相似性的剪枝策略会错误保留与驾驶无关的信息。然而，VLA 模型中冗长的视觉 token 极大地增加了计算成本。然而，现有的 VLA 模型通常将视觉输入转换为大量的视觉 token，这种方法导致了巨大的计算开销和推理延迟的增加，对真实场景的车端部署提出了重大挑战，因为计算资源和推理速度都受到严重限制。

2026-01-04 23:59:42 14

转载马斯克宣布：量产脑机接口，手术全自动化

但这层保护层也阻碍了医疗器械的植入。但对马斯克而言，Neuralink的版图中还有一片和医疗一样，广袤、神秘，且至今无人探索过的新大陆——赛博格。他认为，在ASI必然出现的那一天，人类只有拥有与硅基智能相当的高带宽接口，才不至于沦为「被圈养的宠物」。马斯克表示，到2026年，Neuralink的植入手术将升级为一种「高度简化、几乎完全自动化的流程」。手术后，这位肩部以下完全失去知觉的患者，仅凭植入大脑的芯片，便能在X上发帖，甚至还能玩《马里奥赛车》。但对应用而言，更现实的挑战，或许不是芯片，而在手术本身。

2026-01-03 23:59:54 21

转载打破校史！211高校，首次发Nature

此外，南大的科学家们还用“NJU”命名突破性成果，这份独特的命名方式背后，不仅怀揣着对母校深沉的爱恋，也是对南大百廿学术传统的崇高致敬！该研究成果受到全球研究者的肯定，2023年支小飞获得美国癌症研究协会（AACR）颁发的“杰出学者奖”，2024年获得美国哥伦比亚大学颁发的“杰出研究者奖”。十年磨剑终成锋，一朝破竹势如虹。不过，高校的讲台与实验室从来不是非此即彼的战场，而是同一枚硬币的两面：一面镌刻真理的传授，一面铭刻真理的发现。的学术殿堂，民族学与生态学犹如两座并峙的高峰，扛起了学校科研实力的大旗。

2026-01-03 23:59:54 23

转载打破2年限制！应届生，毕业便获中级职称

由此实现的毕业证、学位证、职称证“三证合一”，既构建起“培养—评价—使用”无缝衔接闭环，更能为产业升级直接输送持证上岗的“即战力”，为工程人才队伍高质量发展注入强劲动能。东南大学国家卓越工程师学院副院长陈扬表示，作为首批国家卓越工程师学院，东大牵头成立省级卓越工程师培养联合体，在江苏省教育厅、省人社厅支持下，推动工程硕博士毕业生职称评审标准落地。或具备大学本科学历或学士学位，取得助理工程师职称后，从事技术工作满4年；从过去仅颁发学历学位，到如今能直接为毕业生颁发行业认可的职称凭证，实现“三证合一”。

2026-01-03 23:59:54 27

转载 ControlNet作者张吕敏最新工作：专为长视频设计的记忆压缩系统

如表所示，本文提出的方法在多个一致性指标上表现出合理的分数。这种预训练模型可以直接微调为自回归视频模型的记忆编码器（memory encoder），从而以较低的上下文成本实现长历史记忆建模，并且仅带来相对较小的保真度损失。，可以通过对视频扩散模型（例如 WAN，并结合 LoRA 微调）以及该压缩模型作为历史记忆编码器进行联合微调，从而构建一个自回归视频生成系统。研究团队提出了一种神经网络结构，用于将长视频压缩为短上下文，并设计了一种显式的预训练目标，使模型能够在任意时间位置保留单帧中的高频细节信息。

2026-01-03 23:59:54 13

转载继Ilya之后，KAN一作发文：Scaling终将撞铁壁！

然而，Scaling Law背后的逻辑却出奇简单：由于在分布外任务上，AI表现不佳，最直接的解决方案就是收集更多数据、训练更大模型，直到一切任务都变得「分布内」。而真正的AGI应大道至简。结构主义既不是Thinking Machines青睐的联结主义，也不看好一度洛阳纸贵的符号主义，也不是两者简单杂交出的「双头怪兽」。对行星运动建模最直接的方法，是把行星在每一个时刻的位置都存下来——一个成本极其高昂的查找表。许多ARC-AGI任务，本质上是「直观物理」的简化形式，而直观物理恰恰是世界模型的关键组成。

2026-01-02 23:59:23 27

转载马斯克狂欢！特斯拉全球首次自动驾驶横穿美国，人类0接管！

由于技术路线的反复横跳（从雷达+视觉到纯视觉，从规则代码到神经网络），特斯拉的自动驾驶曾一度陷入瓶颈，甚至被谷歌旗下的Waymo在无人出租车领域抢尽风头。前特斯拉AI总监Karpathy兴奋高呼：这一刻终于来了，这是端到端神经网络的胜利，这是「软件2.0」在物理世界的完全接管，不再需要人类写下的规则！（2天20小时），看着它自行转动，穿过繁忙的洛杉矶街道，汇入州际高速，避让加州的摩托车手，在德克萨斯的暴雨中稳住车身，最后停在南卡罗来纳州的海滩边。注意，在所有站点的停车，也都是由特斯拉FSD自动完成的。

2026-01-02 23:59:23 37

转载已竣工！211大学，即将整体搬迁

新校区将作为空军军医大学办学育人、履行使命的第一功能区，实现统筹规划卫勤训练、医学创新、临床医疗功能，构建集教医研训鉴于一体的高水平区域综合医疗保障中心、国家航空医学救援示范培训中心、军队支援西部大开发特色示范基地和实战化空军卫勤训练基地等。据公开报道，新校区规划用地2012亩，营区主要划分为教学办公、学员宿舍、勤务保障、医疗、创新中心、训练6个功能模块，配套建设军营文化、训练等营区附属设施，能够满足万余名学员及教职员工的工作生活需求。今日，空军军医大学发布2026年新年献词，其中提到，大家期盼已久的。

2026-01-02 23:59:23 30

转载 LeCun预言成真？这有一份通往AGI的硬核路线图：从BERT到Genie，在掩码范式的视角下一步步构建真正的世界模型

然而，繁荣的背后是概念的混战：世界模型究竟是什么？这意味着，它们在保持语言理解能力的同时，利用Masking的双向注意力机制来提升视觉生成的质量。等工作证明，这种架构不仅能理解图文，还能在双向上下文中实现更精细的生成控制，这才是真正能让“语言逻辑”与“视觉生成”完美兼容的那个最大公约数。相比于逐像素生成的AR模型或计算沉重的连续扩散模型，Masking范式在保持高保真度的同时，带来了极致的效率。出发，经过统一架构与可交互式闭环，并通过设计持久的记忆系统，是构建真正的世界模型最有希望的技术路径。

2026-01-02 00:00:00 17

转载刚刚，梁文锋署名！DeepSeek新论文开启架构新篇章！

此外，为了专门研究 Token 规模的影响，他们另外训练了一个独立的 3B 模型，该模型在一个固定的 1T Token 的语料库上进行训练。简单来说，DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构，并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上，成功解决了超连接（HC）在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。在图 6 (a) 中，他们绘制了涵盖 3B、9B 和 27B 参数规模的计算规模扩展曲线。

2026-01-02 00:00:00 61

转载拒稿后，审稿人“不小心”投稿发表了论文！网友：得多粗心才能在别人的稿件上署自己的名？

前段时间，在巴基斯坦Abdul Wali Khan University Mardan（阿卜杜勒·瓦利汗大学）工作的化学家Muhammad Kashif 通过其在学术不端打击网站Retraction Watch订阅的警告提醒邮件收获了一份天大的“惊喜”—— 在他研究领域内新发表的一篇论文，其内容与他已提交但未发表的论文内容“substantial overlap（大量重复）”。此外，除了“偷盗”他人论文的一作Sujit Kumar，这篇论文的其他作者也已经被盯上了。以上都是论文真正的作者进行的投稿操作。

2026-01-02 00:00:00 18

转载刚刚！中国科学院院士，任985校长

12月30日，教育部人事司在华东师范大学宣布了教育部党组的任免决定，马余刚同志任华东师范大学校长、党委副书记，钱旭红同志不再担任华东师范大学校长、党委副书记职务。马余刚，1968年3月出生，研究生，理学博士，中共党员，教授、中国科学院院士。曾任复旦大学党委常委、副校长。马余刚，男，汉族，1968年3月生，中共党员，研究生学历，博士学位，教授、博士生导师，中国科学院院士。曾任中国科学院上海应用物理研究所核物理室主任、所长助理、副所长，复旦大学科学技术研究院院长、校长助理，发论文/搞科研/涨薪，强烈推荐！

2025-12-31 18:06:08 22

转载英伟达机器人主管的年度总结

但正如Jim Fan在上面提到的，基于VLM (视觉-语言模型) 的VLA模型，其骨架本质上是为问答和知识推理而优化的，其庞大的参数库和服务目标，与机器人所需的物理世界精细操作存在严重错位。但具体的数据路线仍未收敛：人类中心采集（可穿戴设备、Umi、视频）、真机遥操数据、仿真数据，以及互联网数据、数据模态、配比仍是开放问题。硬件约束导致迭代变慢，是一个常被低估的瓶颈。A：未来的 VLA 需要整合物理驱动的世界模型，内部表征 3D 几何、物理动态、因果关系和可供性，实现语义指令与物理精度的统一。

2025-12-31 18:06:08 16

转载大学校长刚退休2天，其33岁儿子就获聘学校正教授职位。。。

此项申诉也已提交至国家反腐败局，要求其对授予小诺奇尼“教授”头衔的招聘程序进行核查，因其涉嫌违反2010年的《格尔米尼改革法》（第240号法律）。这次事件中关键时间点的巧合和规则的修改，难免让人对程序的公正性产生疑问。其任命是否绝对回避了个人利益冲突，确保资源用于奖励真正的学术成就，也是公众关心的焦点。不过，招聘信息于10月3日公布，比校长令晚了约十天，但最关键的是，此时诺奇尼的校长任期已结束两天。33岁的耳鼻喉科医师里卡多·诺奇尼，他在父亲皮尔·弗朗切斯科·诺奇尼卸任校长后不久，

2025-12-31 18:06:08 22

转载 ICML 2026 即将截稿！投稿群成立！还有IJCAI、ICLR 2026 投稿交流群！

交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！

2025-12-31 00:00:01 70

转载这些高校，冲刺第三轮“双一流”！

当然，冲刺 “双一流” 是地方高校的发展追求，但众多非 “双一流” 地方高校的价值同样不可替代。按照立足高原特色，聚焦国家重大发展战略、“四件大事”和自治区九大产业发展需求等要求，确定生态学、民族学等25个学科为“十五五”期间重点支持建设的学科，建设层次分为A类、B类、C类，涉及西藏大学、西藏民族大学、西藏藏医药大学、西藏农牧大学4所高校。由此可见，第三轮“双一流”建设蓄势待发，“双非”高校的学科竞争已步入白热化阶段，在“双一流”扩容的背景下，哪所“双非”高校将突出重围？欢迎扫描文末二维码，申请体验。

2025-12-31 00:00:01 46

转载别让AI再“盲猜”了！腾讯开源新框架GRiP：专治多模态模型的“胡说八道”！

不管你是先看细节再总结，还是先有猜想再找证据，只要逻辑通顺，都给奖励。如果是普通模型，面对这种密密麻麻的头像阵列，通常会直接报一个数字（大概率是错的），因为它看不清局部。这是一张复杂的街景图，满大街都是骑车的人，背景还有复杂的建筑。如果你找了一堆无关的背景（比如让你找车，你把树框进去了），就扣分。微小的物体，还能理解物体之间的相对位置关系。，小模型也能拥有大智慧。也许不久的将来，你的手机相册助手就能拥有这种福尔摩斯般的推理能力。普通模型可能会因为找不到气球，或者分不清颜色，直接开始胡编乱造。

2025-12-31 00:00:01 27

转载吴恩达年终总结：2025是AI工业时代的黎明

此外，还承诺在印度投入 150 亿美元，在德国宣布了约 60 亿美元的投资，并在澳大利亚、马来西亚和乌拉圭推出了新建或扩建项目。《华尔街日报》称，曾与 OpenAI 前 CTO Mira Murati 共同创立 Thinking Machines Lab 的 Andrew Tulloch，最初拒绝了 Meta 提出的方案，其中包括价值 15 亿美元的奖金。2024 年底，推理模型的出现立即提升了编程能力并降低了成本，因为推理能力使智能体能够规划任务，并将具体执行交给成本更低的模型去完成。

2025-12-31 00:00:01 18

转载 SIGGRAPH Asia 2025 最佳论文！港中大、曼彻斯特大学获奖

毕竟，屏幕上再精美的模型，一旦打印出来满身支撑、表面全是粗糙的层纹，甚至物理性能也因层间结构缺陷而受损，其实用价值和美学价值都会大打折扣。而引入 Q 联合优化后，算法自动收敛至一个特定的倾斜角度（上图右侧），使得所有悬垂区域的法向与打印方向的夹角均满足无支撑阈值，从而在不添加任何支撑的情况下完成了制造。在常规切片流程中，模型的初始摆放位姿通常是预先固定的。然而，面对复杂的几何结构，固定的位姿往往是致命的—— 它可能直接导致优化问题无解，即无论如何调整切片轨迹，都无法同时满足无悬浮、防碰撞等硬性约束。

2025-12-29 23:59:28 67

转载 AAAI 2026 Oral｜华科大提出LENS：基于统一强化推理的分割大模型

值得一提的是，LENS 的端到端特性解决了定位错误（Grounding Error）向下游传播的问题，如上图右一右二所示，哪怕有些情况定位框是错的，强大的上下文查询（Context Query）也能带领分割模型走向正确。小问题则是隐藏的 “信息瓶颈”，此前的分割大模型从 “大脑思考”（MLLM）到 “分割解码”（SAM）之间往往只通过单一的分割 Token 传递信息，存在隐形的 “信息输送瓶颈”。通过这种 “推理 - 桥接 - 分割” 三位一体的紧密耦合架构，LENS 实现了推理质量和分割精度的同步提升。

2025-12-29 23:59:28 41

转载 2025年国家杰青最新名单

国家杰青、优青项目从国自然查询系统移除之后，这些项目不再向社会公开。2025年起，国家杰出青年科学基金项目更名为青年科学基金项目（A类）。即可下载本课程的所有566页课件PPT！本文系学术转载，如有侵权，请联系CVer小助手删文。添加微信号：CVer2233，小助手拉你进群！可以获得最新顶会/顶刊上的论文idea。发论文/搞科研/涨薪，强烈推荐！ICCV 2025 论文和代码下载。CVPR 2025 论文和代码下载。2025年青年科学基金项目A类。2025年青年科学基金项目A类。CV垂直方向和论文投稿。

2025-12-29 23:59:28 43

转载 2026年，转行具身智能

已加入【具身智能】知识星球的同学，一定要扫描下方二维码，添加具身智能小助手的微信（微信号：EAI0011），她会拉你进。还可以第一时间从她的朋友圈获取本星球的所有内容推送，更方便大家学习。为了方便大家学习、追踪和从业最前沿的具身智能，特别成立。4. 具身智能公司名单（数百家）和高校实验室/教师名单。【具身智能】技术交流群成立！3. 🤖 具身智能招聘 (实习/校招/社招/升学)【具身智能】vip 微信交流群成立！具身智能：人工智能的下一个浪潮！1. 最新的具身智能技术和项目。【具身智能】学习路线发布！

2025-12-28 23:59:59 30

转载 AAAI 2026 开会群成立！还有CVPR、ICML、IJCAI 2026 投稿群！

交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！

2025-12-28 23:59:59 73

转载华科大&美团提出UFVideo：统一的细粒度视频协同理解框架

UFVideo 是首个能在全局、像素和时间尺度上实现统一细粒度视频协同理解的视频大语言模型（Video LLM），专为多粒度视频感知与协同任务设计，涵盖通用视频理解、视频对象指代、分割及时间接地等广泛任务。UFVideo-Bench 上的多粒度协同理解任务中，UFVideo 在 PixRQA、PixHQA、PixTRQA 三类任务中全面领先，语义平均得分（SAvg.）和分割指标（J&F）均优于 GPT-4o 和 Qwen3-VL 系列模型，充分彰显了全局、像素、时间三尺度协同理解的独特价值。

2025-12-28 23:59:59 20

转载顶刊TPAMI 2025！视频生成能成为世界模型吗？VBench++：把视频生成模型“拆开测”

更多时候，模型面对的是：一张已有的图像、一个当前世界状态、一个已经存在的场景。正是在这样的背景下，VBench++让视频生成评测开始从“跑分工具”转向“能力诊断”。如果说 T2V 测的是视频生成模型“想象力”，那 I2V 测的，其实是世界模型中更关键的一点 --- 状态是否能被正确继承与演化。这类能力往往不会在“短视频惊艳感”里直接体现，却会在更复杂、更长时程、更真实的任务里决定模型是否可靠。如果模型无法在更长时间跨度内维持一致的世界状态，那么它更像是在“不断重画”，而不是在“模拟世界”。

2025-12-28 23:59:59 19

转载即将截稿！ICML 2026 投稿群成立！还有IJCAI、ICLR 2026 投稿交流群！

交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！交流群是为了方便沟通投稿注意事项、rebuttal及后续开会等事宜，非诚勿扰！

2025-12-27 23:59:47 38

转载强化学习杀疯了！AR3D-R1：首个“R1 式“文本到3D生成大模型

模型首先构建合理的全局几何结构，然后逐步添加细节纹理，生成高质量的 3D 物体。AR3D-R1 的成功标志着强化学习在文本到 3D 生成领域的首次系统性突破，为构建更智能、更具推理能力的 3D 生成模型开辟了新方向。这让 AR3D-R1 不再是「凭本能画 3D」，而是先构思、再搭骨架、最后上细节——真正把 RL 驱动的「会想」能力，迁移到了「会造」的 3D 世界里。在此前的工作中，3D 模型大多停留在「预训练 + 微调」框架，真正将 RL 引入 3D 生成的一步，还无人系统迈出。

2025-12-27 23:59:47 13

转载【扩散模型】微信技术群来了！

如果你的研究中要用到Mamba，或者对Mamba感兴趣，那可以加我微信！我会拉你进Mamba微信群交流学习。，来添加好友（或者联系已经加好微信的CVer小助手）。，来添加好友（或者联系已经加好微信的CVer小助手）。，来添加好友（或者联系已经加好微信的CVer小助手）。，来添加好友（或者联系已经加好微信的CVer小助手）。，来添加好友（或者联系已经加好微信的CVer小助手）。可以获得最新顶会/顶刊上的论文idea。扫描下方二维码，加入CVer学术星球。发论文/搞科研/涨薪，强烈推荐！

2025-12-27 23:59:47 19

转载月薪12.8万的实习生出现了。。。

不光是字节这么大手笔，近几年，阿里云、腾讯、百度等在实习生和学生研究员层面的项目规模持续扩张，覆盖方向也从传统工程岗位，逐渐延伸到基础模型、系统架构、算法研究等更偏研究型的领域。深度学习，机器学习，计算机视觉，图像处理，自然语言处理，SLAM，大数据，数据分析，自动驾驶，机器人，推荐系统，Java，C/C++和Python。是 Amusi 整理的一个AI算法岗面试题库，累计900+个问题与解答。、百度、字节跳动、美团、拼多多、京东、快手、商汤、旷视、滴滴、OPPO、VIVO、华为、小米、大疆、平安科技。

2025-12-27 23:59:47 23

计算机视觉中的多视图几何(中文版)

2017年互联网女皇报告中英文完整版

机器学习实战（中文版+英文版+源代码）

空空如也