小米玄戒Andrew
小米玄戒算法专家
展开
-
【深度学习新浪潮】什么是混合精度分解?
混合精度分解通过“分解-量化-协同”的技术路径,在大模型压缩中实现了精度与效率的双赢。其核心优势在于按需分配精度资源,既避免了全低精度量化的性能损失,又突破了全高精度的资源限制。随着硬件支持的完善(如FP8、INT4 Tensor Core)和算法优化的深入,混合精度分解有望成为大模型端侧部署的标配技术,推动人工智能从云到端的全面普及。原创 2025-05-29 21:52:41 · 105 阅读 · 0 评论 -
【深度学习新浪潮】智能眼镜关键技术拆解(简要版)
硬件性能逼近人眼极限(如Micro LED+光波导组合实现60PPD)和交互体验趋向自然无感(如脑机接口+无手柄交互)。当前行业正处于技术成熟期(Gartner曲线的“高原期”),核心挑战从单点突破转向系统级优化——需在显示、光学、算力、能源等维度实现性能-功耗-成本的三角平衡。未来3年,随着5nm SoC量产(如苹果A18X)、硅碳电池普及(能量密度>800Wh/L)和光波导良率提升(>95%),消费级智能眼镜有望突破2000元价格门槛,进入大众市场。原创 2025-05-27 11:45:08 · 211 阅读 · 0 评论 -
【深度学习新浪潮】以图搜地点是如何实现的?(含大模型方案)
下面是一个使用Python实现照片位置识别功能的方案,包含基于传统计算机视觉和深度学习的方法,以及结合大模型的方案。对于大模型方案,还需要设置有效的OpenAI API密钥。使用这些代码时,你需要安装相关的依赖库,如。原创 2025-05-27 11:39:59 · 206 阅读 · 0 评论 -
【深度学习新浪潮】如何用Dify构建自己的AI Agent?
该Agent支持多时间线叙事生成(如1920年上海滩、2077年赛博都市等),通过“时间锚点”将不同时空的剧情隐秘关联,生成跨时空交织的故事网络。用户上传表格并选择图表类型(如柱状图、雷达图),Agent自动解析数据结构,生成包含Chart.js库的HTML代码,并通过第三方存储服务返回可直接运行的可视化链接。例如,学生在开发图书借阅系统时,只需输入需求,Agent即可生成包含注释和测试用例的Python代码,并提供代码优化建议。在构建过程中,要不断进行测试和优化,以提升Agent的性能和用户体验。原创 2025-05-24 22:05:10 · 208 阅读 · 0 评论 -
【深度学习新浪潮】什么是MCP?
MCP(Model Context Protocol,模型上下文协议)是由Anthropic于2024年11月开源的标准化协议,旨在统一AI模型与外部工具、数据源的交互方式,解决传统集成中的碎片化问题。其核心设计类似于USB-C接口,通过客户端-服务器架构(Host/Client/Server)实现模型与外部资源的“即插即用”,使AI应用能够高效调用数据库、API、文件系统等资源,同时支持动态上下文传递和多模型协作。MCP为AI开发者提供了标准化的协作框架,显著降低了多模型集成和外部资源调用的复杂度。原创 2025-05-24 21:56:17 · 270 阅读 · 0 评论 -
【深度学习新浪潮】2025年谷歌I/O开发者大会keynote观察
这是谷歌搜索的一项新功能,通过集成Gemini模型,用户可输入多段式复杂问题(例如“帮我分析最近3个月的股市趋势,并对比不同行业的表现”),系统会自动调用实时数据与历史信息生成结构化答案,甚至支持体育赛事预测、金融数据分析等专业场景。框架,允许开发者构建“多屏应用”(如手机App可无缝切换到平板或智能手表),并通过Gemini Nano的本地AI模型实现跨设备任务同步(例如在手机上开始编辑文档,切换到PC时自动续接进度)。同时,蓝牙追踪精度提升至0.5米,并支持“远程锁定+数据擦除”一键操作。原创 2025-05-22 15:13:26 · 472 阅读 · 0 评论 -
【深度学习新浪潮】什么是多模态大模型?
多模态大模型是AI从“单一能力”迈向“通用智能”的重要一步,它让机器具备更接近人类的感知和认知能力,有望重塑人机交互、内容生产、行业效率等多个领域。简单来说,这类模型就像人类一样,能同时“看”“听”“读”“说”,并将不同信息关联起来,完成复杂任务。基于Transformer等深度学习架构,参数规模通常达数十亿至数千亿,通过海量跨模态数据(如图文对、视频文本对)训练,学习不同模态的统一表征。传统模型通常只能处理单一模态(如纯文本的GPT、纯图像的CNN),而多模态大模型可以同时接收并分析多种类型的数据。原创 2025-05-19 22:29:02 · 306 阅读 · 0 评论 -
【深度学习新浪潮】如何入门人工智能?
入门人工智能(AI)需要结合数学基础、编程技能、机器学习理论和实践项目,逐步深入。:AI入门有门槛,但通过“理论→实践→复盘”的循环,逐步积累即可。初期遇到问题很正常,多查资料、多交流,保持耐心!:全职学习约3-6个月可掌握基础并完成简单项目,后续需持续实践和跟进领域进展。:不必追求精通,但需掌握基本概念和应用场景,后续通过实践加深理解。原创 2025-05-19 22:24:13 · 180 阅读 · 0 评论 -
【深度学习新浪潮】大模型在哪些垂域已经有比较好的落地?
AI大模型的落地已从通用场景向专业领域深度渗透,尤其在医疗、金融、教育等领域形成规模化应用。未来,随着分布式大模型智能体系统(如思必驰“1+N”模式)的成熟,以及区域化垂类模型的持续迭代,AI将进一步推动各行业从效率提升向模式创新演进。原创 2025-05-18 23:44:55 · 240 阅读 · 0 评论 -
【深度学习新浪潮】大模型时代,我们还需要学习传统机器学习么?
大模型时代,传统机器学习并非过时,而是与深度学习形成互补。AI工程师需以“传统筑基、大模型创新”为策略:先通过数学和经典算法构建扎实基础,再通过工具和项目实践掌握两者结合的技巧,最终在行业应用中实现技术落地。这一路径不仅能提升职业竞争力,更能为解决实际问题提供更全面的技术方案。正如混合模型在智能客服和医疗领域的成功所示,传统与现代技术的融合将成为未来AI发展的主流方向。原创 2025-05-17 21:21:54 · 286 阅读 · 0 评论 -
【深度学习新浪潮】智能追焦技术全解析:从算法到设备应用
智能追焦是基于人工智能和自动化技术的对焦功能,通过深度学习算法识别并持续跟踪移动物体(如人、动物、运动器械等),实时调整焦距以保持主体清晰,显著提升动态场景拍摄成功率。:搭载 BIONZ XR 芯片,集成 TransTrack 类算法,0.03 秒超高速对焦,通过卡尔曼滤波预测高速运动轨迹,适合体育摄影。:结合激光雷达(如荣耀 Magic7 的 1200 点激光对焦)与视觉算法,实现毫米级对焦精度,解决低纹理场景(如白墙前的人物)追焦难题。实际应用:可连接镜头控制模块(如步进电机 API),通过。原创 2025-05-09 23:07:47 · 240 阅读 · 0 评论 -
【深度学习新浪潮】苹果在显示算法技术上的研发进展调研
苹果在显示算法技术研发上展现出三大趋势:AI深度整合、多模态环境感知以及软硬件协同优化。具体技术包括ProMotion动态刷新率与功耗管理、True Tone环境感知与色彩校准、HDR画质增强、AR/VR显示与实时校准等。苹果通过AI算法、传感器和芯片的深度耦合,实现了屏幕显示的精准控制和高效能效管理。未来,苹果将继续在Micro LED和AR/VR领域突破,推动显示技术的进一步发展。建议关注苹果的专利布局和行业展会,以把握技术前沿动态。原创 2025-05-09 22:48:48 · 372 阅读 · 0 评论 -
【深度学习新浪潮】以OpenAI以30亿美金收购Windsurf为例,观察AI对于IT行业的影响
AI技术的渗透加速了IT行业的“马太效应”。此外,AI代理(AI Agents)的兴起正在重塑企业服务模式,从传统的“软件即服务”(SaaS)向“自主决策即服务”演进。OpenAI以30亿美元收购AI编程助手开发商Windsurf(原Codeium)的交易,不仅是其史上最大规模的并购动作,也标志着AI对IT行业的深度重构已进入加速阶段。在这场变革中,程序员的角色将经历从“手工业者”到“设计师”的蜕变——那些能够驾驭AI工具、理解复杂系统、并在伦理与创新间找到平衡点的开发者,将成为新时代的技术中坚。原创 2025-05-06 23:04:50 · 37 阅读 · 0 评论 -
【深度学习新浪潮】小米MiMo-7B报告内容浅析
该报告介绍了专为推理任务设计的大语言模型MiMo-7B,其在预训练阶段通过优化数据预处理、采用三阶段数据混合策略(处理约25万亿token)和引入MultiToken Prediction(MTP)目标提升推理潜力;后训练阶段构建13万可验证数学和编程问题数据集,结合测试难度驱动奖励机制和数据重采样策略进行强化学习(RL)。实验表明,超越同规模模型,MiMo-7B-RL。原创 2025-05-01 23:38:12 · 657 阅读 · 0 评论 -
【深度学习新浪潮】ISP芯片算法技术简介及关键技术分析
ISP(Image Signal Processor)芯片作为现代影像系统的核心组件,负责对图像传感器输出的原始信号进行后期处理。ISP的主要功能包括线性纠正、噪声去除、坏点修复、色彩校正以及白平衡调整等,这些处理步骤对于提高图像质量和视觉效果至关重要。随着科技的进步,ISP芯片不仅提升了图像的清晰度和色彩准确性,还通过高效的算法增强了拍摄体验,尤其是在低光环境下的表现。原创 2025-04-29 22:47:05 · 774 阅读 · 0 评论 -
【AI生产力工具】Windsurf,一款AI编程工具
其深度集成的智能体系统(如 Flows 和 Cascade)正在重新定义开发者与 AI 的协作方式。无论是个人开发者追求效率,还是企业需要安全可控的 AI 解决方案,Windsurf 均提供了差异化的选择。随着 OpenAI 收购传闻的发酵,未来其功能可能进一步与大模型生态整合,值得持续关注。,它是一款集成深度上下文感知、多模型协作和实时代码管理的综合开发环境(IDE)。Windsurf 作为 AI 编程工具的核心价值在于。原创 2025-04-28 17:08:00 · 859 阅读 · 0 评论 -
【深度学习新浪潮】新视角生成的研究进展调研报告(2025年4月)
新视角生成领域正从学术研究向产业落地加速渗透,扩散模型、轻量化渲染和动态场景处理成为三大技术主线。未来,随着多模态融合、自监督学习和硬件加速的进一步突破,该技术将在元宇宙、自动驾驶、影视制作等领域释放更大潜力。原创 2025-04-22 22:30:05 · 333 阅读 · 0 评论 -
【LLM量化压缩】什么是1.58bit压缩?
1.58 Bit”不仅是一个技术指标,更是LLM轻量化的里程碑。它通过三值量化打破了传统低位宽量化的性能瓶颈,为大模型在边缘设备、移动端的部署提供了新范式。尽管当前仍面临硬件适配和训练复杂度的挑战,但随着专用芯片和开源工具的发展,1.58-bit LLM有望成为未来AI部署的主流选择。原创 2025-04-21 16:05:47 · 268 阅读 · 0 评论 -
【杂谈】怎么选择openAI的模型以实现投入产出比最大化?
众所周知,openAI最近一天一个模型的,实在不知道咋选了,每次打开console我的感觉就如下图所示↓所以今天我总结一下他家各个模型的特点和优势场景,方便大家选择。你需结合任务需求、性能、成本和场景特性进行综合权衡。原创 2025-04-21 12:01:15 · 119 阅读 · 0 评论 -
vivo X200 Ultra前瞻系列(3):什么是经典负片风格?
早期探索:摄影术诞生于19世纪,早期的摄影方法如达盖尔银版法等,虽然能够记录影像,但存在诸多局限,如影像不可复制、拍摄成本高昂等。1839年,英国发明家塔尔博特发明了卡罗式摄影法,这是一种基于纸质底片的摄影方法,被认为是负片摄影的早期雏形。卡罗式摄影法的底片是一张经过碘化银处理的纸,曝光后通过显影和定影处理,得到一张负像,然后可以通过接触印相的方法制作出正像照片。这种方法的出现,为后来负片技术的发展奠定了基础。胶片时代的辉煌:19世纪后期,随着明胶干版技术的发明,负片摄影得到了极大的发展。原创 2025-04-18 09:33:18 · 536 阅读 · 0 评论 -
vivo X200 Ultra前瞻系列(2):vivo X200 Ultra影像技术沟通会总结
vivo于今日(2025年4月14日)举办的“X系列蓝图影像技术沟通会”中,正式发布了。,展示了其在移动影像领域的多项技术突破。(注:以上参数基于2025年4月发布信息,实际以官方为准。原创 2025-04-14 22:24:03 · 507 阅读 · 0 评论 -
【AI产品】Manus,启动!
后面还会继续分享更多的试用体验,也欢迎大家一起加入探索,把这个工具用得更好~如果你有有关AI生产力工具的好点子也可以联系我,我们一起讨论,为社区做出贡献。科学之后就可以注册了。注册后,我先在手机上玩了一把。这样那样,跟之前yxh上写的挺相似的。大概十几分钟后,真的给我产出了一份报告!但是这么几大段就这么一条注释,我也是很费解啊!Try了第一步,就需要科学上网,因为国内呢,是跟千问合作的,现在还不能用。打开了一看,内容还真的很像那么回事的!所以我火速让manus增加了一下注释,出了个新版。原创 2025-04-12 11:25:39 · 212 阅读 · 0 评论 -
【Grok 大模型深度解析】第二期:架构探秘与训练哲学
在大规模模型训练中,传统的分布式训练框架面临着诸多挑战。随着模型参数规模的增大和数据量的爆炸式增长,数据并行和模型并行的协调变得极为复杂。在数据并行模式下,不同计算节点之间需要频繁地同步梯度信息,这会导致网络通信开销大幅增加,成为训练效率的瓶颈。而在模型并行模式下,如何合理地将模型的不同部分分配到不同的计算节点上,以充分利用每个节点的计算资源,同时避免节点之间的负载不均衡,是一个非常棘手的问题。为了解决这些问题,Grok 团队自研了基于 JAX + Rust 的自定义训练框架。原创 2025-04-11 21:21:13 · 387 阅读 · 0 评论 -
【Grok 大模型深度解析】第一期:技术溯源与核心突破
Grok大模型通过混合架构、思维链推理和实时联网能力,重新定义了AI的边界。对于开发者,可基于Grok-1进行行业定制;企业用户可接入Grok-3 API提升服务效率;学术研究者可关注其开源生态的技术演进。未来,Grok有望在AGI探索中扮演关键角色,同时也需应对伦理、监管等挑战。建议持续关注xAI的技术动态,参与开源社区贡献,共同推动AI技术的普惠与安全发展。原创 2025-04-10 22:38:59 · 255 阅读 · 0 评论 -
【深度学习新浪潮】deepseek和llama系列模型的技术路线有什么异同?
未来,两者可能进一步融合技术路线:DeepSeek或加强多模态能力,LLaMA可能借鉴低精度训练等优化手段。开发者可根据具体需求选择模型——追求极致效率选DeepSeek,需要多模态通用性则选LLaMA。DeepSeek和LLaMA系列作为当前主流的开源大模型,在技术路线上既有共性也有显著差异。原创 2025-04-09 22:07:05 · 183 阅读 · 0 评论 -
vivo X200 Ultra前瞻系列(1):重塑影像旗舰标准
在色彩风格化、视频专业度上实现了安卓阵营的突破性进步。其2亿像素长焦、双LYT-818传感器及5轴防抖技术,对追求个性化创作的用户具有强吸引力。若真机表现能兑现硬件承诺,X200 Ultra有望重新定义手机影像的“专业”标准。然而,其厚重设计、价格门槛及生态适配问题,仍需市场检验。vivo X200 Ultra作为2025年上半年影像旗舰,以“全焦段夜视仪+电影级视频”为核心卖点,主打。,对标小米15 Ultra、OPPO Find X8 Ultra等竞品。,顶配版(24GB+2TB)逼近万元。原创 2025-04-08 21:41:22 · 642 阅读 · 0 评论 -
【深度学习新浪潮】视觉与多模态大模型文字生成技术研究进展与产品实践
视觉与多模态大模型在文字生成领域已从单一模态向深度融合演进,通过架构创新与领域优化逐步解决传统效果问题。产品层面,工具链的完善(如DeepSeek、CogView4)显著提升了内容生产效率,而GPT-4o的突破性表现进一步推动了行业变革。未来,跨模态推理、轻量化部署及多模态交互将成为技术突破的核心方向,同时需平衡伦理合规与技术创新。原创 2025-04-05 22:01:25 · 313 阅读 · 0 评论 -
【5分钟论文阅读】InstructRestore论文解读
本文提出InstructRestore框架,用于实现基于人类指令的区域定制化图像恢复。针对现有方法缺乏区域定制恢复能力的问题,开发数据生成引擎构建536,945个三元组的数据集,设计类似ControlNet的模型。该模型能识别目标区域并分配不同整合尺度,实验表明InstructRestore可有效按指令恢复图像,如实现背景虚化和局部增强效果,但存在实例级对象指定支持不足、指令模板固定等局限研究背景:图像恢复是计算机视觉的基础问题,基于深度学习的判别式模型和生成对抗网络模型存在过度平滑或引入视觉伪影的问题。原创 2025-04-03 23:01:25 · 394 阅读 · 0 评论 -
【深度学习新浪潮】DeepSeek近期的技术进展及未来动向
DeepSeek近期以模型性能突破和开源策略为核心,在技术架构、成本控制及行业应用上取得显著进展。未来将聚焦模型迭代(如R2、V4)、算力生态协同和多场景深化(如AI眼镜、储能),同时应对实时信息处理和多模态能力的技术挑战。其全球化布局和技术标准化努力,将进一步巩固其在AI领域的竞争力。原创 2025-04-02 21:56:53 · 456 阅读 · 0 评论 -
【深度学习新浪潮】AIOS的研发进展与未来展望
AIOS(Artificial Intelligence Operating System,人工智能操作系统)是一种深度融合人工智能技术的操作系统,其核心目标是通过集成大语言模型(LLM)、机器学习、自然语言处理(NLP)、计算机视觉(CV)等AI能力,实现设备智能化、服务个性化和生态互联化。与传统操作系统不同,AIOS不仅负责硬件资源管理,更强调通过AI技术主动理解用户需求、优化任务执行,并在多设备间形成协同智能。:蔚来自研芯片“神玑NX9031”算力更高,英伟达新一代芯片即将上车,小鹏需加速技术迭代。原创 2025-04-01 21:25:04 · 599 阅读 · 0 评论 -
【深度学习新浪潮】Grok过去两周的进展一览(2025.04.01)
Grok的发展路径呈现“技术突破驱动应用落地”的特点,通过多模态、大算力、开源化构建核心竞争力,同时在伦理与商业化之间寻求平衡。未来,其可能成为覆盖消费级交互、企业级解决方案及垂直领域深度应用的综合AI平台。总体来看,Grok 3的发布标志着xAI在模型性能、应用场景和商业化策略上的重大突破,同时也加剧了AI领域的竞争与伦理讨论。通过上述技术路径,Grok旨在实现从通用语言理解到跨领域复杂推理的全面突破,成为兼具性能与可靠性的AI推理引擎。原创 2025-04-01 09:23:52 · 350 阅读 · 0 评论 -
【深度学习新浪潮】什么是推理模型?
推理模型(Reasoning Model)定义推理模型通常指专门用于处理逻辑推理、因果推断、数学计算或常识推理任务的模型。这类模型可以是基于符号逻辑(如专家系统)、概率图模型(如贝叶斯网络),或是结合深度学习的混合模型(如神经符号系统)。典型任务数学题求解(如“3+5=?”)、逻辑谜题(如数独)、因果推理(如“如果下雨,地面会湿吗?”)等。GPT是通用语言模型,擅长文本生成与上下文理解,但可能缺乏严格推理能力。推理模型专注特定任务,准确性更高,但依赖标注数据和领域知识。趋势。原创 2025-03-31 12:38:54 · 205 阅读 · 0 评论 -
【深度学习新浪潮】什么是最近大火的vibe coding?
Vibe Coding是一种依赖人工智能的编程范式,开发者通过自然语言描述需求(如功能、逻辑或目标),由大型语言模型(LLM)自动生成代码,全程无需手动编写代码。例如,开发者只需说“创建一个电商网站的购物车功能”,AI即可生成对应代码。主要好处降低编程门槛:无需掌握具体编程语言,普通人也能通过自然语言开发软件,实现“全民编程”。提升效率:复杂功能可通过AI快速生成,减少重复性编码工作。支持创新:开发者可专注于创意设计,AI处理技术细节,例如通过语音指令直接生成代码。潜在问题代码质量与可维护性。原创 2025-03-30 17:22:41 · 461 阅读 · 0 评论 -
【深度学习新浪潮】具身智能及其发展前景分析
具身智能(Embodied Intelligence)是指通过物理载体(如机器人)与环境实时交互,实现感知、决策与行动闭环的智能系统。其核心在于将人工智能与物理实体结合,强调“智能源于身体与环境的互动”,而非仅依赖虚拟算法。具身智能的典型特征包括多模态感知(视觉、触觉、听觉等)、自主决策能力(如基于大语言模型的自然语言指令解析)以及自学习能力(通过数据迭代优化任务执行)。具身智能正从实验室迈向规模化商用,国内厂商在政策支持与技术追赶中展现强劲潜力。原创 2025-03-29 20:38:46 · 252 阅读 · 0 评论 -
【深度学习新浪潮】图像修复(Image Inpainting)技术综述:定义、进展与应用展望
图像修复(Image Inpainting)是一种通过算法手段填补图像中缺失区域或移除不需要对象的技术,其核心目标是利用图像上下文信息生成与周围像素一致且视觉自然的内容。该技术通过计算机视觉和深度学习模型,从损坏、遮挡或人为标记的区域中推断出合理的像素填充,最终实现图像的无痕修复。从数学视角看,图像修复可建模为一个逆向优化问题:在已知图像非缺失区域像素值的情况下,通过最小化能量函数或学习数据分布,推断缺失区域的最优解。原创 2025-03-27 22:09:42 · 557 阅读 · 0 评论 -
【深度学习新浪潮】展平RVQ技术详解
展平 RVQ 是一种结合了残差矢量量化和展平操作的高效数据压缩技术。它通过多阶段量化逐步逼近原始数据,并利用展平策略优化存储和计算效率。这种方法在高维数据的压缩和表示中具有广泛的应用前景,但同时也需要在精度、存储和计算之间找到平衡点。原创 2025-03-26 22:19:08 · 443 阅读 · 0 评论 -
【深度学习新浪潮】ISP中的Color Constancy算法研究综述
Color Constancy(色彩恒常性)指人类视觉系统在不同光照条件下感知物体真实颜色的能力,例如在黄光照射下仍能识别白纸为白色。在图像处理领域,该技术旨在通过算法模拟这一能力,消除光源色偏对图像色彩的影响,还原物体本征颜色。ISP(Image Signal Processor)中的Color Constancy算法是自动白平衡(AWB)的核心模块,其作用是对相机捕获的原始图像进行光源估计与色彩校正,确保输出图像色彩一致性。原创 2025-03-26 22:10:15 · 401 阅读 · 0 评论 -
【深度学习新浪潮】AI ISP技术与手机厂商演进历史
从算法创新到硬件架构升级,再到厂商生态竞争,这一领域的技术迭代速度远超传统ISP时代。未来,随着量子计算、新型存储技术的导入,AI ISP有望进一步突破物理限制,成为智能终端的核心驱动力。本文是关于AI ISP(人工智能图像信号处理器)的技术解析、与传统ISP(图像信号处理器)的区别、近三年研究进展,以及各大手机厂商在该领域演进历史的详细报告。传统ISP(Image Signal Processor)是手机摄像系统的核心组件,负责将摄像头传感器捕获的原始RAW数据转换为可视的RGB图像。原创 2025-03-21 23:51:30 · 427 阅读 · 0 评论 -
暗光增强技术研究进展与产品落地综合分析(2023-2025)
本文从技术研究与产业应用两个维度,系统梳理近三年(2022-2025)该领域的关键突破,并对比分析主流手机厂商的影像技术优劣势。未来,随着6G通信与端侧AI算力突破,暗光增强将进一步向实时化、多模态化演进,成为智慧影像生态的核心支柱。(2023)首次将Transformer架构与Retinex理论结合,提出单阶段视网膜框架(ORF),通过光照估计器与退化修复器的协同,实现低光图像的去噪、对比度增强与颜色校正。其多模态相关性建模模块突破设备空间对齐限制,在高速低光场景下表现突出。清华与ETH联合提出的。原创 2025-03-20 22:04:13 · 422 阅读 · 0 评论 -
理想发布的下一代自动驾驶架构MindVLA是什么?
理想汽车发布的下一代自动驾驶架构是基于“机器人大模型”理念设计的全新技术体系,旨在通过融合空间智能、语言智能和行为智能,将汽车从交通工具转变为“专职司机”。采用“视觉-语言-行为”(VLM)融合的端到端模型,直接从原始传感器数据生成驾驶决策,减少传统模块化流程的延迟和信息损失。引入语言模型(LM)的逻辑推理能力,使系统能快速响应突发场景(如连续避让障碍物)并生成安全驾驶策略。例如,在高速场景下可实现超过130kph的紧急制动(AEB)。原创 2025-03-20 21:53:57 · 506 阅读 · 0 评论