2025年03月_QbitAl

转载奥赛级AI基准来了：难倒所有模型，GPT-4o仅考34分，上海交大出品

AGI-Eval大模型评测团队基于此，做了OlympicArena题目的难度验证，按照14个标杆模型（去除Qwen2-72B-Chat）的结果对数据子集和数据集维度做难度分布，从图中可以看到，OlympicArena整体难度偏难，仅低于AGI-Eval团队私有的两个高中数学竞赛题目。预测分析，用Medium、Hard拟合Easy，Easy、Hard拟合Medium，以及Easy、Medium拟合Hard，可以得到如下图（在Ideal Fit线上方的为超出预期，线下的为低于预期）。

2025-03-31 16:07:36 43

原创摸DeepSeek过河也得自身硬! 想开后的文小言，真香！

家里的客厅朝向是南偏东，35平米，有一整扇落地窗，请根据要求画出浅色奶油风、暗黑轻奢风、跳脱童趣风三种不同风格的装修效果，三个户型必须一致。当大家还在争论“文心X1与DeepSeek孰强孰弱”，文小言早已跳出了单一模型竞争的维度，携手更多伙伴，究其本质，是为了带给用户更好的体验。另一个孩子是男孩的概率也能是1/2。百度在2025开年后，不论是文小言免费，还是文心大模型开源，种种系列革新举措，就是盯准了AI落地的新趋势。从里面推荐2个酒店，适合女生旅游住，有早餐，交通方便，性价比高，给RMB报价和推荐理由。

2025-03-31 16:07:36 488

转载中科大提出动作价值表征学习新方法，率先填补长期决策信息的缺失

尽管现有方法以数据增广、对比学习等技术增强了智能体面向环境视觉干扰的鲁棒性，但值得注意的是，这类研究往往仅聚焦于如何从视觉图像中提取鲁棒的、不随环境变化的信息，忽略了下游关键的决策过程。具体来说，奖励模型基于信息瓶颈框架，最大化从状态-动作对中提取的奖励表征与单步奖励之间的互信息，同时最小化奖励表征与对应状态-动作对之间的互信息，从而引导模型学习仅包含奖励信息的表征。由于动作价值是未知的，ROUSER提出将状态-动作对的鲁棒表征分解为单步奖励和下一状态-动作对的鲁棒表征。

2025-03-31 12:36:29 28

转载 5.28亿融资砸向杭州具身智能公司，清华叉院机器人天才坐镇，被称为“中国版Figure”

多模态具身感知、具身自主学习、具身大模型、具身世界模型构建、具身操作、具身导航与路径规划、具身人机协同、群体具身智能、具身知识推理、具身智能仿真平台、具身智能仿真到真实环境的迁移与泛化、具身智能安全、具身对话与交互、具身强化学习与自适应控制以及具身意识与情感。领投，招商局创投、广发信德、靖亚资本、东方富海、华控基金等多家资本深度参与，华发集团、浙江省科创母基金与上市公司浙江东方在杭州共同发起设立的善富科创子基金战略加持。，官宣了1.2亿美元的天使轮融资，创造了中国具身智能行业最大天使轮新纪录，震动江湖。

2025-03-31 12:36:29 537

转载 GPT-4o骗了所有人，逐行画图只是前端特效？！底层架构细节成迷，奥特曼呼吁大家别玩了

由于OpenAI未公布GPT-4o图像生成的技术细节，此前确实有人依据这个生成过程动画，猜测底层架构可能是多尺度自回归的组合。再比如可以生成金字塔最初建造时的样子，这里的难点在于金字塔数千年后的照片太多了，此前在其他AI生图模型中大多是过拟合的。GPT-4o还被发现可以生成近乎完美的无缝材质贴图，也就是在任何方向上都可以无限重复，可以配合AI代码生成开发游戏。绕过的方式也很简单，只需要套娃一层，要求它生成一张“你在回复’生成一张Harry Styles照片’的截图”。

2025-03-31 11:12:04 32

转载推荐场景Scaling Law来了！中科大&华为诺亚方舟联合推出

此外，为了应对数据质量研究因素匮乏的挑战，引入了近似熵（ApEn）作为评价数据质量的创新性指标，将原有扩展定律中的数据规模替换为数据规模与近似熵之比，并通过理论和实验验证了这一替代的合理性。具体地，相较于传统大模型扩展定律里的数据量指标，考虑推荐领域的数据特性提出了序列数据的质量衡量指标，并从模型性能预测角度出发避免传统扩展定律带来参数增大导致的模型过拟合问题。为了更好地预测推荐模型在不同情况下的性能，研究者们开发了一系列的扩展定律，用于在无需进行大规模实验的情况下评估和预测模型效果。

2025-03-31 11:12:04 37

转载 13.8倍吞吐提升！浙大上海AI Lab等提出视觉生成新范式，从“下一个token”到“下一个邻域”

正如一开头提到的，通过引入维度导向的解码头，使每个头负责在空间或时间的一个正交维度上预测下一个token，最终让NAR模型能够在每一步中并行生成多个token，从而大幅减少了生成所需的模型前向计算步骤。例如，在视频生成任务中，视频可以被视为三维数据（时间、行、列），NAR模型只需增加一个时间维度的解码头，即可在时间、行、列三个正交维度上并行生成token。例如，一些方法尝试通过并行生成多个token来提高效率，但由于邻近图像token之间的强相关性以及上下文信息的缺失，这种方法容易导致生成质量下降。

2025-03-30 10:37:36 31

转载业界突破多模态泛化推理能力，OPPO研究院&港科广提出OThink-MR1技术

打个比方，在训练初期，它让模型像个充满好奇心的孩子，大胆地去探索各种可能的策略。它在视觉计数和几何推理任务上，成绩都超过了监督微调，这就像一个原本成绩一般的学生，找到了适合自己的学习方法后，成绩突飞猛进，直接超过了那些只会死记硬背的同学。在强化学习里，探索新的策略和利用已有经验是两个很重要的方面，但以前的方法很难平衡这二者的关系，不是在探索阶段浪费太多时间，就是过早地依赖已有经验。实验结果显示，在同任务验证中，采用固定KL散度的GRPO方法不如监督微调，但OThink-MR1中的GRPO-D却能逆袭。

2025-03-30 10:37:36 69

原创 AIGC第一股年报详解：AIGC业务暴涨88.5%营收2.2亿，95%智能硬件交付出海，跑通规模化「软件订阅+出海」

出门问问最早以语音交互技术为核心，发力语音搜索软件，2012年起从0到1开发声音信号识别、自然语言处理、垂直搜索等技术，2014年开发AIoT智能硬件，2017年将技术进一步向企业场景商业化落地，为B端企业客户提供语音交互与内容生成为核心的AI技术。在具体业务布局上，出门问问更聚焦细分赛道，可避免与海外巨头直面竞争，在国际市场找到自己的蓝海。实际上，如果想更清晰地对比AIGC业务的毛利，可以扣除2023年A公司的收入影响，调整后的毛利和毛利率分别为1.87亿元和50.9%，和2024年的相应数据基本持平。

2025-03-30 10:37:36 626

转载 “计算机视觉被GPT-4o终结了”（狗头）

针对这一猜想，更具体的实现方法可以参考Meta等24年8月的一篇论文：使用一个多模态模型同时预测预测下一个token和扩散图像。自回归模型根据之前的像素或patch预测下一个像素或patch，获得更好地遵循指令，以及图像编辑的能力。这波GPT-4o原生图像生成的技术细节，OpenAI是一点也没有公布（粗节也没有公布）。已经把脑筋动到了自动驾驶，称只需要训练最强大的基础模型，然后微调。，先生成一个粗略的图像，填充细节的同时，粗略图形本身也在变化。但不可否认，靠扩大基础模型规模就能做到，也是令人意想不到的。

2025-03-29 15:47:13 82

转载自动驾驶首次应用测试时计算！港大英伟达等新技术让AI边开边学，无人车遇变道自如应对

来评估自动驾驶模型的不确定性。与之类似，自动驾驶汽车在上述场景中，更会表现得像个谨小慎微的”新手司机”，这是因为模型的决策往往依赖于工程师预设的固定规则，进而导致“不求无功，但求无过”的驾驶风格，但过多的无故急刹、过度避让反而会引发额外的安全隐患。一种直观的方法是观察模型输出的分布状态，并基于“固定采样下，模型的输出方向越集中，越逼近模型的最高置信度”的假设，来计算模型输出的聚类程度，从而侧面衡量出模型输出的不确定性。tainty）方法，能够动态地改善驾驶策略，通过在线的数据驱动，摆脱了对预设规则的依赖，

2025-03-29 15:47:13 39

转载迈向群体智能 | 智源发布首个跨本体具身大小脑协作框架与开源具身大脑

面向机器人在长期运行中产生的海量感知与行为数据，RoboOS 提供基于内存优化的数据访问引擎，支持TB级别历史数据的内存随机访问能力，为任务复现、异常回溯、跨任务知识迁移等场景提供基础能力。具体而言，RoboBrain 能够有效利用环境信息和交互对象的状态——无论是从第一人称还是第三人称视角捕捉的图像——生成针对不同类型机器人操作任务的任务规划，并基于人类指令和视觉信息，提供合理的可操作区域，并能在不同场景中表现出良好的泛化能力，生成既可行又合理的轨迹。，并将拆解后的子任务分发给3台跨本体机器人。

2025-03-29 15:47:13 56

转载马斯克xAI蛇吞[特殊字符]：资本有了，数据有了，商业模式也有了

这也意味着xAI现在是估值仅次于OpenAI的大模型公司，拥有了X成熟的社交媒体业务和商业模式，具备IPO的成熟条件，比OpenAI依靠私募融资，有了更强的资本撬动能力。法院判决允许这笔交易继续进行，的方式收购了X（推特），此次交易中xAI的估值为800亿美元，对X的估值为330亿美元（450亿美元资产减去120亿美元债务）。一年多前，该公司估值还是160亿美元，1年多上涨384%。当然动作最大的还是OpenAI，即将完成一笔软银领导的400亿美元的融资，估值达到3000亿美元，是5个月前估值的两倍。

2025-03-29 10:06:38 23

转载 17款大模型PK八款棋牌游戏，o3-mini胜出，DeepSeek R1输在中间步骤

随着新的大模型发布，作者更新了对更强的大模型的评测，包含Gemini-2.0-flash-thinking，Gemini-2.0-pro-exp，O1-preview，Deepseek R1，O3-mini，Claude 3.7 Sonnet，GPT-4.5。Deepseek R1的中间步骤分意外很低，检验后发现，尽管最终的决策表现很好，R1 的思考过程非常繁冗，经常出现连续十几次“wait”然后重新思考的现象，时常没法按要求给出中间步骤的答案。让大模型在8个游戏中互相PK，评测各主流大模型的推理能力。

2025-03-29 10:06:38 58

转载马斯克xAI蛇吞[特殊字符]：资本有了，数据有了，商业模式也有了

这也意味着xAI现在是估值仅次于OpenAI的大模型公司，拥有了X成熟的社交媒体业务和商业模式，具备IPO的成熟条件，比OpenAI依靠私募融资，有了更强的资本撬动能力。法院判决允许这笔交易继续进行，的方式收购了X（推特），此次交易中xAI的估值为800亿美元，对X的估值为330亿美元（450亿美元资产减去120亿美元债务）。一年多前，该公司估值还是160亿美元，1年多上涨384%。当然动作最大的还是OpenAI，即将完成一笔软银领导的400亿美元的融资，估值达到3000亿美元，是5个月前估值的两倍。

2025-03-29 10:06:38 28

转载马斯克xAI蛇吞[特殊字符]：资本有了，数据有了，商业模式也有了

这也意味着xAI现在是估值仅次于OpenAI的大模型公司，拥有了X成熟的社交媒体业务和商业模式，具备IPO的成熟条件，比OpenAI依靠私募融资，有了更强的资本撬动能力。法院判决允许这笔交易继续进行，的方式收购了X（推特），此次交易中xAI的估值为800亿美元，对X的估值为330亿美元（450亿美元资产减去120亿美元债务）。一年多前，该公司估值还是160亿美元，1年多上涨384%。当然动作最大的还是OpenAI，即将完成一笔软银领导的400亿美元的融资，估值达到3000亿美元，是5个月前估值的两倍。

2025-03-29 10:06:38 21

原创 AI Agent来，传统BI危

除了智能体本身的优势，DeepSeek的爆发，也大幅降低了作为智能体“大脑”的大模型使用成本，不仅凭借强推理能力保证智能体的任务质量，更能平衡智能体消耗巨量Token所带来的模型或算力成本。这样的异常引起了老王的注意，但仅凭BI系统生成的静态图表，老王依然是丈二和尚摸不着头脑，无奈之下只能召集团队开会，手动分析数据，耗费了大量时间，最终得出的结论仍然不足以让他信服。可以想象，在未来工作场景中，如果对智能体规模进行扩展，让多个智能体能够形成集群，进行分工协作，完成更复杂的数据处理任务，甚至是数据之外的场景。

2025-03-28 18:09:08 588

转载单张照片生成360°3D场景，支持灵活视角漫游｜人大&北师大&字节

通过利用先进的预训练视频基础模型和精确的训练数据，FlexWorld能够处理大幅度的相机姿态变化，从而实现一致的、支持360°旋转和前进后退观察的3D场景生成。FlexWorld中包含一个经过微调的视频模型，该模型以视频作为条件，可以从残缺的输入视频中捕捉到相机运行轨迹，输出符合输入轨迹的完好视频，保持良好的3D一致性。在场景内容不足的区域，FlexWorld渲染出该区域的残缺场景视频，并通过一个经过微调的视频到视频模型，获得补完的场景视频。下图展示了FlexWorld的整体框架。

2025-03-28 18:09:08 54

转载港大开源博士级AI智能体，独立完成三篇算法研究，一站式科研6小时搞定

在计算机视觉图像生成领域，AI-Researcher凭借对「Vector Quantization」技术的理解，仅依据用户提供的研究方向和相关文献，AI-Researcher独立完成了从算法设计到代码实现的完整研究流程。系统构建了分阶段的创意生成体系，首先通过智能算法广泛生成多种研究思路，再从创新价值、技术可行性及学术影响等维度进行全面分析，最终甄选出最具前景的方案，为用户提供清晰的研究方向建议。生成的研究内容超越了简单的实验报告，包含深度的理论分析、精确的算法定义以及全面的实验验证。

2025-03-28 18:09:08 110

原创 3D版DeepSeek卷起开源月：两大基础模型率先SOTA！又是VAST

其刚刚上新的两个基础模型，TripoSG和TripoSF，为团队的最新研发成果。需要注意的是，基于Transformer的VAE架构在分辨率上有很强的泛化性，无需重新训练，即可处理更高分辨率的输入。第二波出击比第一波更猛，开源2个强大的基础模型，很有诚意的那种。至于开源质量嘛，我们可以通过今天的TripoSG和TripoSF，以及近期VAST的其它动作，窥一斑而知全豹。凭借技术上的活跃度，VAST旗下的Tripo系列在全网社交媒体上，也属于是3D生成领域的当红炸子鸡。

2025-03-28 18:09:08 628

转载专抓AI“看图说谎”，谷歌哥大用三类陷阱触发幻觉，打造可随技术发展动态演进的评估框架

此外，HaloQuest创新性地引入了基于大语言模型（LLM）的自动评估系统（AutoEval），实现了开放式、动态化的评估机制，并探索了合成图像在VLM评估中的革命性应用价值。HaloQuest是一个创新的视觉问答基准数据集，通过整合真实世界图像和合成图像，结合受控的图像生成技术和针对特定幻觉类型设计的问题，为分析VLMs的幻觉触发因素提供了更精准的工具。HaloQuest不仅为VLMs的幻觉问题研究提供了新的基准，还通过其创新的数据集构建方法和评估机制，为未来多模态AI的发展指明了方向。

2025-03-28 18:09:08 61

转载 GPT-4o掀起“吉卜力风”，连CEO奥特曼也换了头像！版权争议虽迟但到

仔细扒4o的“隐藏介绍”，还能在System Card中发现他们取消了对生成公众人物图像的限制。虽然法律层面还没有达成共识，但有鉴于吉卜力工作室雷厉风行“递律师函”的行为，网友们猜测它起诉OpenAI的可能性很大。风格并非明确受到版权保护，这意味着OpenAI仅通过生成看起来像吉卜力工作室风格的照片，似乎并没有违反法律。ChatGPT会拒绝生成“个别在世艺术家的风格”，但OpenAI允许其复制“更广泛的制片风格”。一片热闹中，有细心的网友发现，OpenAI当前似乎已停止生成吉卜力风格图像。

2025-03-28 16:19:40 73

转载 Claude团队开盒Transformer：AI大脑原来这样工作

在多语言场景中，作者研究了模型对 “the opposite of ‘small’” 的不同语言版本（英语、法语、中文）的处理，发现模型处理这些提示的电路相似，包含共享的多语言组件和特定语言组件。在第二行开始前的换行符位置，模型激活了与 “rabbit” 相关的规划特征，这些特征受前一行 “it” 的影响，激活了押韵特征和候选完成词特征，从而影响最后一个词的选择。计算边的权重时，会用到反向雅可比矩阵。特征替换实验发现，改变模型对 “Texas” 的表征，模型会输出其他地区的首府，验证了多步推理机制的存在。

2025-03-28 16:19:40 85

原创 AI大模型看手相！图片视频加持深度思考，阿里QVQ-Max“神了神了”

包括对图片的解析能力非常强，无论是复杂的图表还是日常生活中随手拍的照片，它都能快速识别出关键元素。除了分析和推理，QVQ-Max还能做一些有趣的事情，比如帮你设计插画、生成短视频脚本，甚至根据你的需求创作角色扮演的内容。在一顿思考过后，QVQ-Max准确地识别出两张图联系——都是西湖的风景，但一张是春夏时节，另一张是冬季。除了效果之外，虽然Qwen团队没有公布相关论文，但对于背后的技术亮点，团队还是简单的介绍了一番。值得注意的是，QVQ-Max是免费可用的哦，感兴趣的朋友快去试试吧~

2025-03-28 12:23:36 859

原创让宇树机器狗在北大未名湖畔捡垃圾，银河通用干的

Jilong Wang给出的解释是：“因为现在端到端还不足以产生足够精确的结果，而模组能够让它产生很精确的全身数据，然后我们又把现实世界的数据提供给端到端的模型进行训练。QuadWBG项目中的银河通用团队提出了GORM，它支持六自由度的机器人基座放置，对于世界坐标系中的任意目标位姿，均可通过RM的逆运算计算潜在的基座到世界的分布。北大校园里勤勤恳恳的小狗子，之所以能精确识别并抓取地上的各种垃圾，是因为QuadWBG借鉴了多种抓取检测技术的成功经验，通过将抓取姿态检测与运动规划相结合。

2025-03-28 12:23:36 1007

转载 Manus欲以37亿估值硅谷寻融资！发布仅三周，线下用户聚会场场满员

当时GitHub热榜上，大多是Agent相关的项目和工具库，老牌Agent项目MetaGPT与AutoGPT双双被顶到前排。于是乎，在他们AgentSDK 中提供了该功能，并即将为ChatGPT桌面应用程序和响应API提供支持。也就这两天，奥特曼还说「人们喜欢 MCP，我们很高兴能在我们的产品中增加对它的支持」。从官方消息看，这几天他们确实也在硅谷面对面开用户聚会，据说是场场满员的那种。，抓取 .apkg 文件，将其放入 Anki，然后就可以了。毫无疑问的是，MCP正在成为智能体行业发展的一个重要标准。

2025-03-28 09:07:25 95

转载英伟达要买下贾扬清公司LeptonAI！老黄花数亿美元加码算力租赁

用户既可以通过LeptonAI租用GPU（LeptonAI从其他供应商租用GPU），也可以从其他供应商那里以优惠价格直接租用GPU，然后购买Lepton AI的支持与完整平台使用权。Lepton AI成立于2023年，种子轮融资1100万美元，致力于为企业提供高效、可扩展的AI应用平台，可以让没有AI领域知识的普通开发者调用2～3行命令就能部署AI模型。购买英伟达GPU的最大客户是云服务提供商亚马逊和谷歌等，但近年来这些公司也在尝试开发自己的替代芯片，这可能会削弱英伟达的优势。

2025-03-27 12:17:28 46

原创 7B模型搞定AI视频通话，阿里最新开源炸场，看听说写全模态打通，开发者企业免费商用

在传统语音理解大模型的人机交互场景里，一般运用 ASR（Automatic Speech Recognition，自动语音识别）技术，把人类语音转换为文字文本，随后将其交给大语言模型处理，最终生成的内容借助 TTS（Text-to-Speech，语音合成）技术转化为语音反馈给用户。所以Qwen2.5-Omni得以在一系列同等规模的单模态模型权威基准测试中，拿下最强全模态性能，在语音理解、图片理解、视频理解、语音生成等领域的测评分数，均领先于专门的音频（Audio）或视觉语言（VL）模型。

2025-03-27 12:17:28 1056

转载长视频理解新突破！Mamba混合架构让显存消耗腰斩，处理10万视频token不费力

本文介绍了Vamba模型，一种专为高效理解超长视频设计的Mamba-Transformer混合模型。该方法通过集成面向文本token的交叉注意力机制与面向视频token的Mamba-2模块更新策略，在显著降低计算复杂度与显存占用的同时，实现了对长、中、短视频理解任务的性能提升。基于LVBench等数据集的大量实验评估表明，Vamba在长视频理解任务中以4.3%的显著优势超越了现有的高效长视频理解模型，并在多个分布各个视频时常区间的基准测试中展现出了卓越的竞争力。

2025-03-27 12:17:28 51

转载 Agent太火！看这一篇综述，知识就不会学杂了丨华东师大&东华大学出品

为特定任务设计的微调方法，例如将通用指令与轨迹数据混合训练，或引入额外约束项（如正则化）提升泛化与稳定性。这类方法更具灵活性，适合复杂或稀缺任务场景。

2025-03-27 12:17:28 55

转载蚂蚁国产GPU训练大模型细节曝光！Ling模型研发负责人回应：关于我们抠FLOPS的一些点滴

众所周知，和国外的大模型团队相比，中国团队面对了更多的异构加速卡的挑战，我们并不是第一家面对异构问题的公司，比如智源研究院就发起了 FlagScale 项目，研发面向异构加速卡的训练框架。根据在不同平台上对 Ling-Plus 的真实训练记录，我们可以观察到某个平台在 K 张加速卡上持续一段时间（比如一周）的 token 数，再根据技术报告表 1 上提到的不同加速卡的单位时间成本，就可以很简单地计算出对应平台上训练单位 token 量（报告里以 1 万亿 token 为单位）的成本。

2025-03-27 11:00:41 60

转载你的美图App，在CVPR技术5连秀

研究人员发现，现有方法往往使用预训练的OCR模型提取特征，但它们未能捕捉文本结构的层次性，即从单个笔画到笔画间的交互，再到整体字符结构间的交互，最后到字符与文字行间的交互，这就导致在处理复杂字符（如中文）时容易产生扭曲或难以辨认的结果。HRR 网络专注于细粒度区域的像素级分类，通过稀疏网格注意力机制和近邻注意力机制的组合，在计算开销可控的前提下，在高分辨率下进行精细化感知，实现对微小结构（如植物细枝、精细雕塑等）的精准分割，输出最终的预测结果。然而，在许多实际应用场景中，“分布均匀”却难以实现。

2025-03-27 11:00:41 182

转载人形机器人主持发布会发布自己！追觅科技孵化，下月将参加全球首届人形机器人马拉松

经过几次技术路线迭代——从最初的视觉识别、位姿估计和轨迹规划的经典技术路线，进化到快慢双系统的端到端技术路线——小麦已经是个工厂熟练工了。既有简单场景，又有复杂场景，“人形机器人需要大规模、群体性工序场景做数据采集、训练学习与能力验证，有利于加快人形机器人的落地时间”。目标就是要构建具备环境适应能力人形机器人，利用真实数据不断完善与优化模型，提升机器人与环境的交互能力。主要是依靠环境感知能力，在遇到障碍物、通过路口等复杂场景中，引导视障人士进行避让，并通过语音进行提醒。采集真实数据，也适合追觅合作。

2025-03-27 08:45:06 54

原创中国顶流无人驾驶提速出海：安全久经考验，外国big name实名好评

有分析认为，新加坡对无人驾驶的需求比较迫切，因为当地人口密度较大，拥有私家车的成本比较高，老百姓期待更便宜和便捷的出行工具，Robotaxi再合适不过了。据了解，端到端理论出现的很早，但由于早年的模型规模比较小，对物理世界和数据的理解能力较差，所以一直没有量产落地。大模型的强大能力，本土培养出的优势，海外的肯定与期盼，天时地利人和共同作用，萝卜快跑扬帆出海，可以说是正当其时。比如萝卜快跑六代车，本身就是辆MPV，内部只安放了四个座位，后排大空间能坐能躺，媲美迈巴赫，座椅还有按摩加热。

2025-03-26 18:29:50 1052

原创对话2025最火具身智能团队：2个自动驾驶第一人带队，1.2亿美元天使融资震动江湖

这家具身智能公司，最终官宣了。

2025-03-26 18:29:50 1288

转载人形机器人优雅漫步，强化学习新成果！独角兽Figure创始人：之前大家吐槽太猛

域随机化通过随机化每个机器人的物理属性，模拟策略可能需要运行的各种系统，从而弥合模拟与现实之间的差距。By the way，今年伊始海内外的人形机器人都密集亮相，诸多大厂企业开始投身机器人的布局当中，这不今天同一天，vivo宣布成立机器人Lab。之所以这次选择对机器人步态的改善，Figure创始人也说了，这并非是他们的首要任务，只是之前网友吐槽得多了，他们最终目标是商业运送机器人。首先，利用强化学习技术，在GPU加速物理仿真中对新的行走控制器进行了全面训练，并在几个小时内收集了数年的仿真演示数据。

2025-03-26 18:29:50 42

转载姚班天才范浩强创业公司曝光！旷视三剑客携2亿天使轮进军具身智能赛道

此外值得注意的是，据企查查公开资料，目前工商资料公开的原力灵机股东有三家，分别是原力聚合（重庆）信息技术有限公司、灵机启原（重庆）企业管理咨询合作企业（有限合伙）、灵机拓原（重庆）企业管理咨询合作企业（有限合伙）。如果说在今年之前，具身智能还是科技届的“圈地自萌”，进入2025年后，具身智能正褪去概念光环，在真实世界中长出”筋骨”，成为家喻户晓、人人能感知的概念。加上这篇论文，在一两年内，范浩强在旷视拿下三个世界第一，也让人脸识别“靠谱”起来，走进日常生活点滴。25岁时，范浩强成了旷视研究院的算法总监；

2025-03-26 15:20:22 96

转载轨迹可控视频生成新范式，复旦微软破解视频生成难题，精准控制任意物体运动

MagicMotion基于 CogVideoX5B-I2V 这一图像到视频生成模型，并引入了额外的轨迹控制网络（Trajectory ControlNet）。该设计能够高效地将不同类型的轨迹信息编码到视频生成模型中，实现轨迹可控的视频生成。如图所示，本文使用 3D VAE 编码器将轨迹图编码到隐空间，然后将其与编码后的视频拼接，作为轨迹控制网络的输入。轨迹控制网络由所有预训练的 DiT 模块的可训练副本构建而成，用于编码用户提供的轨迹信息。

2025-03-26 15:20:22 44

转载 Stable Diffusion变身3D神器！一个LoRA将2D图像转3D模型

该研究的作者为林坚涛、杨鑫以及陈美羲，他们是来自于香港科技大学（广州）ENVISION实验室的硕博生。本工作由趣丸科技资助，由陈颖聪教授带领硕博研究团队与趣丸科技联合打造。陈颖聪，香港科技大学（广州）人工智能学域助理教授，博导，受国家人才计划青年项目资助，他长期致力于计算机视觉和视觉生成模型的研究，已在TPAMI、CVPR、ICCV、ECCV等顶级会议和期刊发表五十余篇论文。陈教授的研究方向包括三维生成与重建、图像视频生成等，并多次以第一作者身份在顶级会议上做口头报告。

2025-03-26 09:27:44 185

转载 GPT-4o图像生成今起免费！奥特曼坐镇紧急发布，指令遵循/文本控制表现惊艳

值得一提的是，昨晚11点（北京时间）OpenAI突然宣布将有小发布，而DeepSeek刚刚发布了DeepSeek-v3-0324的官方技术报告。按照官方介绍，作为多模态模型的4o现在终于补齐了一块重要拼图——图片生成。直播中展示了各种玩法，比如制作梗图、文本渲染、多轮交互生成和指令遵循等。仔细对比两张图，第一张白板中的男人倒影和第二张图也对应上了。比如，4o可以100%还原文字内容，且指定文字摆放位置。还能像连续剧一样，一边准确生成文字，一边变换人物动作。（没错，生成时还知道将小写换成更符合的大写）

2025-03-26 09:27:44 88

空空如也

空空如也