AndrewHZ
大厂算法专家,负责技术预研和行业洞察。
展开
-
【深度学习新浪潮】小米MiMo-7B报告内容浅析
该报告介绍了专为推理任务设计的大语言模型MiMo-7B,其在预训练阶段通过优化数据预处理、采用三阶段数据混合策略(处理约25万亿token)和引入MultiToken Prediction(MTP)目标提升推理潜力;后训练阶段构建13万可验证数学和编程问题数据集,结合测试难度驱动奖励机制和数据重采样策略进行强化学习(RL)。实验表明,超越同规模模型,MiMo-7B-RL。原创 2025-05-01 23:38:12 · 561 阅读 · 0 评论 -
【深度学习新浪潮】ISP芯片算法技术简介及关键技术分析
ISP(Image Signal Processor)芯片作为现代影像系统的核心组件,负责对图像传感器输出的原始信号进行后期处理。ISP的主要功能包括线性纠正、噪声去除、坏点修复、色彩校正以及白平衡调整等,这些处理步骤对于提高图像质量和视觉效果至关重要。随着科技的进步,ISP芯片不仅提升了图像的清晰度和色彩准确性,还通过高效的算法增强了拍摄体验,尤其是在低光环境下的表现。原创 2025-04-29 22:47:05 · 717 阅读 · 0 评论 -
【AI生产力工具】Windsurf,一款AI编程工具
其深度集成的智能体系统(如 Flows 和 Cascade)正在重新定义开发者与 AI 的协作方式。无论是个人开发者追求效率,还是企业需要安全可控的 AI 解决方案,Windsurf 均提供了差异化的选择。随着 OpenAI 收购传闻的发酵,未来其功能可能进一步与大模型生态整合,值得持续关注。,它是一款集成深度上下文感知、多模型协作和实时代码管理的综合开发环境(IDE)。Windsurf 作为 AI 编程工具的核心价值在于。原创 2025-04-28 17:08:00 · 636 阅读 · 0 评论 -
【深度学习新浪潮】新视角生成的研究进展调研报告(2025年4月)
新视角生成领域正从学术研究向产业落地加速渗透,扩散模型、轻量化渲染和动态场景处理成为三大技术主线。未来,随着多模态融合、自监督学习和硬件加速的进一步突破,该技术将在元宇宙、自动驾驶、影视制作等领域释放更大潜力。原创 2025-04-22 22:30:05 · 288 阅读 · 0 评论 -
【LLM量化压缩】什么是1.58bit压缩?
1.58 Bit”不仅是一个技术指标,更是LLM轻量化的里程碑。它通过三值量化打破了传统低位宽量化的性能瓶颈,为大模型在边缘设备、移动端的部署提供了新范式。尽管当前仍面临硬件适配和训练复杂度的挑战,但随着专用芯片和开源工具的发展,1.58-bit LLM有望成为未来AI部署的主流选择。原创 2025-04-21 16:05:47 · 245 阅读 · 0 评论 -
【杂谈】怎么选择openAI的模型以实现投入产出比最大化?
众所周知,openAI最近一天一个模型的,实在不知道咋选了,每次打开console我的感觉就如下图所示↓所以今天我总结一下他家各个模型的特点和优势场景,方便大家选择。你需结合任务需求、性能、成本和场景特性进行综合权衡。原创 2025-04-21 12:01:15 · 100 阅读 · 0 评论 -
vivo X200 Ultra前瞻系列(3):什么是经典负片风格?
早期探索:摄影术诞生于19世纪,早期的摄影方法如达盖尔银版法等,虽然能够记录影像,但存在诸多局限,如影像不可复制、拍摄成本高昂等。1839年,英国发明家塔尔博特发明了卡罗式摄影法,这是一种基于纸质底片的摄影方法,被认为是负片摄影的早期雏形。卡罗式摄影法的底片是一张经过碘化银处理的纸,曝光后通过显影和定影处理,得到一张负像,然后可以通过接触印相的方法制作出正像照片。这种方法的出现,为后来负片技术的发展奠定了基础。胶片时代的辉煌:19世纪后期,随着明胶干版技术的发明,负片摄影得到了极大的发展。原创 2025-04-18 09:33:18 · 453 阅读 · 0 评论 -
vivo X200 Ultra前瞻系列(2):vivo X200 Ultra影像技术沟通会总结
vivo于今日(2025年4月14日)举办的“X系列蓝图影像技术沟通会”中,正式发布了。,展示了其在移动影像领域的多项技术突破。(注:以上参数基于2025年4月发布信息,实际以官方为准。原创 2025-04-14 22:24:03 · 484 阅读 · 0 评论 -
【AI产品】Manus,启动!
后面还会继续分享更多的试用体验,也欢迎大家一起加入探索,把这个工具用得更好~如果你有有关AI生产力工具的好点子也可以联系我,我们一起讨论,为社区做出贡献。科学之后就可以注册了。注册后,我先在手机上玩了一把。这样那样,跟之前yxh上写的挺相似的。大概十几分钟后,真的给我产出了一份报告!但是这么几大段就这么一条注释,我也是很费解啊!Try了第一步,就需要科学上网,因为国内呢,是跟千问合作的,现在还不能用。打开了一看,内容还真的很像那么回事的!所以我火速让manus增加了一下注释,出了个新版。原创 2025-04-12 11:25:39 · 204 阅读 · 0 评论 -
【Grok 大模型深度解析】第二期:架构探秘与训练哲学
在大规模模型训练中,传统的分布式训练框架面临着诸多挑战。随着模型参数规模的增大和数据量的爆炸式增长,数据并行和模型并行的协调变得极为复杂。在数据并行模式下,不同计算节点之间需要频繁地同步梯度信息,这会导致网络通信开销大幅增加,成为训练效率的瓶颈。而在模型并行模式下,如何合理地将模型的不同部分分配到不同的计算节点上,以充分利用每个节点的计算资源,同时避免节点之间的负载不均衡,是一个非常棘手的问题。为了解决这些问题,Grok 团队自研了基于 JAX + Rust 的自定义训练框架。原创 2025-04-11 21:21:13 · 328 阅读 · 0 评论 -
【Grok 大模型深度解析】第一期:技术溯源与核心突破
Grok大模型通过混合架构、思维链推理和实时联网能力,重新定义了AI的边界。对于开发者,可基于Grok-1进行行业定制;企业用户可接入Grok-3 API提升服务效率;学术研究者可关注其开源生态的技术演进。未来,Grok有望在AGI探索中扮演关键角色,同时也需应对伦理、监管等挑战。建议持续关注xAI的技术动态,参与开源社区贡献,共同推动AI技术的普惠与安全发展。原创 2025-04-10 22:38:59 · 234 阅读 · 0 评论 -
【深度学习新浪潮】deepseek和llama系列模型的技术路线有什么异同?
未来,两者可能进一步融合技术路线:DeepSeek或加强多模态能力,LLaMA可能借鉴低精度训练等优化手段。开发者可根据具体需求选择模型——追求极致效率选DeepSeek,需要多模态通用性则选LLaMA。DeepSeek和LLaMA系列作为当前主流的开源大模型,在技术路线上既有共性也有显著差异。原创 2025-04-09 22:07:05 · 131 阅读 · 0 评论 -
vivo X200 Ultra前瞻系列(1):重塑影像旗舰标准
在色彩风格化、视频专业度上实现了安卓阵营的突破性进步。其2亿像素长焦、双LYT-818传感器及5轴防抖技术,对追求个性化创作的用户具有强吸引力。若真机表现能兑现硬件承诺,X200 Ultra有望重新定义手机影像的“专业”标准。然而,其厚重设计、价格门槛及生态适配问题,仍需市场检验。vivo X200 Ultra作为2025年上半年影像旗舰,以“全焦段夜视仪+电影级视频”为核心卖点,主打。,对标小米15 Ultra、OPPO Find X8 Ultra等竞品。,顶配版(24GB+2TB)逼近万元。原创 2025-04-08 21:41:22 · 615 阅读 · 0 评论 -
【深度学习新浪潮】视觉与多模态大模型文字生成技术研究进展与产品实践
视觉与多模态大模型在文字生成领域已从单一模态向深度融合演进,通过架构创新与领域优化逐步解决传统效果问题。产品层面,工具链的完善(如DeepSeek、CogView4)显著提升了内容生产效率,而GPT-4o的突破性表现进一步推动了行业变革。未来,跨模态推理、轻量化部署及多模态交互将成为技术突破的核心方向,同时需平衡伦理合规与技术创新。原创 2025-04-05 22:01:25 · 283 阅读 · 0 评论 -
【5分钟论文阅读】InstructRestore论文解读
本文提出InstructRestore框架,用于实现基于人类指令的区域定制化图像恢复。针对现有方法缺乏区域定制恢复能力的问题,开发数据生成引擎构建536,945个三元组的数据集,设计类似ControlNet的模型。该模型能识别目标区域并分配不同整合尺度,实验表明InstructRestore可有效按指令恢复图像,如实现背景虚化和局部增强效果,但存在实例级对象指定支持不足、指令模板固定等局限研究背景:图像恢复是计算机视觉的基础问题,基于深度学习的判别式模型和生成对抗网络模型存在过度平滑或引入视觉伪影的问题。原创 2025-04-03 23:01:25 · 378 阅读 · 0 评论 -
【深度学习新浪潮】DeepSeek近期的技术进展及未来动向
DeepSeek近期以模型性能突破和开源策略为核心,在技术架构、成本控制及行业应用上取得显著进展。未来将聚焦模型迭代(如R2、V4)、算力生态协同和多场景深化(如AI眼镜、储能),同时应对实时信息处理和多模态能力的技术挑战。其全球化布局和技术标准化努力,将进一步巩固其在AI领域的竞争力。原创 2025-04-02 21:56:53 · 440 阅读 · 0 评论 -
【深度学习新浪潮】AIOS的研发进展与未来展望
AIOS(Artificial Intelligence Operating System,人工智能操作系统)是一种深度融合人工智能技术的操作系统,其核心目标是通过集成大语言模型(LLM)、机器学习、自然语言处理(NLP)、计算机视觉(CV)等AI能力,实现设备智能化、服务个性化和生态互联化。与传统操作系统不同,AIOS不仅负责硬件资源管理,更强调通过AI技术主动理解用户需求、优化任务执行,并在多设备间形成协同智能。:蔚来自研芯片“神玑NX9031”算力更高,英伟达新一代芯片即将上车,小鹏需加速技术迭代。原创 2025-04-01 21:25:04 · 540 阅读 · 0 评论 -
【深度学习新浪潮】Grok过去两周的进展一览(2025.04.01)
Grok的发展路径呈现“技术突破驱动应用落地”的特点,通过多模态、大算力、开源化构建核心竞争力,同时在伦理与商业化之间寻求平衡。未来,其可能成为覆盖消费级交互、企业级解决方案及垂直领域深度应用的综合AI平台。总体来看,Grok 3的发布标志着xAI在模型性能、应用场景和商业化策略上的重大突破,同时也加剧了AI领域的竞争与伦理讨论。通过上述技术路径,Grok旨在实现从通用语言理解到跨领域复杂推理的全面突破,成为兼具性能与可靠性的AI推理引擎。原创 2025-04-01 09:23:52 · 324 阅读 · 0 评论 -
【深度学习新浪潮】什么是推理模型?
推理模型(Reasoning Model)定义推理模型通常指专门用于处理逻辑推理、因果推断、数学计算或常识推理任务的模型。这类模型可以是基于符号逻辑(如专家系统)、概率图模型(如贝叶斯网络),或是结合深度学习的混合模型(如神经符号系统)。典型任务数学题求解(如“3+5=?”)、逻辑谜题(如数独)、因果推理(如“如果下雨,地面会湿吗?”)等。GPT是通用语言模型,擅长文本生成与上下文理解,但可能缺乏严格推理能力。推理模型专注特定任务,准确性更高,但依赖标注数据和领域知识。趋势。原创 2025-03-31 12:38:54 · 188 阅读 · 0 评论 -
【深度学习新浪潮】什么是最近大火的vibe coding?
Vibe Coding是一种依赖人工智能的编程范式,开发者通过自然语言描述需求(如功能、逻辑或目标),由大型语言模型(LLM)自动生成代码,全程无需手动编写代码。例如,开发者只需说“创建一个电商网站的购物车功能”,AI即可生成对应代码。主要好处降低编程门槛:无需掌握具体编程语言,普通人也能通过自然语言开发软件,实现“全民编程”。提升效率:复杂功能可通过AI快速生成,减少重复性编码工作。支持创新:开发者可专注于创意设计,AI处理技术细节,例如通过语音指令直接生成代码。潜在问题代码质量与可维护性。原创 2025-03-30 17:22:41 · 424 阅读 · 0 评论 -
【深度学习新浪潮】具身智能及其发展前景分析
具身智能(Embodied Intelligence)是指通过物理载体(如机器人)与环境实时交互,实现感知、决策与行动闭环的智能系统。其核心在于将人工智能与物理实体结合,强调“智能源于身体与环境的互动”,而非仅依赖虚拟算法。具身智能的典型特征包括多模态感知(视觉、触觉、听觉等)、自主决策能力(如基于大语言模型的自然语言指令解析)以及自学习能力(通过数据迭代优化任务执行)。具身智能正从实验室迈向规模化商用,国内厂商在政策支持与技术追赶中展现强劲潜力。原创 2025-03-29 20:38:46 · 234 阅读 · 0 评论 -
【深度学习新浪潮】图像修复(Image Inpainting)技术综述:定义、进展与应用展望
图像修复(Image Inpainting)是一种通过算法手段填补图像中缺失区域或移除不需要对象的技术,其核心目标是利用图像上下文信息生成与周围像素一致且视觉自然的内容。该技术通过计算机视觉和深度学习模型,从损坏、遮挡或人为标记的区域中推断出合理的像素填充,最终实现图像的无痕修复。从数学视角看,图像修复可建模为一个逆向优化问题:在已知图像非缺失区域像素值的情况下,通过最小化能量函数或学习数据分布,推断缺失区域的最优解。原创 2025-03-27 22:09:42 · 481 阅读 · 0 评论 -
【深度学习新浪潮】展平RVQ技术详解
展平 RVQ 是一种结合了残差矢量量化和展平操作的高效数据压缩技术。它通过多阶段量化逐步逼近原始数据,并利用展平策略优化存储和计算效率。这种方法在高维数据的压缩和表示中具有广泛的应用前景,但同时也需要在精度、存储和计算之间找到平衡点。原创 2025-03-26 22:19:08 · 412 阅读 · 0 评论 -
【深度学习新浪潮】ISP中的Color Constancy算法研究综述
Color Constancy(色彩恒常性)指人类视觉系统在不同光照条件下感知物体真实颜色的能力,例如在黄光照射下仍能识别白纸为白色。在图像处理领域,该技术旨在通过算法模拟这一能力,消除光源色偏对图像色彩的影响,还原物体本征颜色。ISP(Image Signal Processor)中的Color Constancy算法是自动白平衡(AWB)的核心模块,其作用是对相机捕获的原始图像进行光源估计与色彩校正,确保输出图像色彩一致性。原创 2025-03-26 22:10:15 · 371 阅读 · 0 评论 -
【深度学习新浪潮】AI ISP技术与手机厂商演进历史
从算法创新到硬件架构升级,再到厂商生态竞争,这一领域的技术迭代速度远超传统ISP时代。未来,随着量子计算、新型存储技术的导入,AI ISP有望进一步突破物理限制,成为智能终端的核心驱动力。本文是关于AI ISP(人工智能图像信号处理器)的技术解析、与传统ISP(图像信号处理器)的区别、近三年研究进展,以及各大手机厂商在该领域演进历史的详细报告。传统ISP(Image Signal Processor)是手机摄像系统的核心组件,负责将摄像头传感器捕获的原始RAW数据转换为可视的RGB图像。原创 2025-03-21 23:51:30 · 391 阅读 · 0 评论 -
暗光增强技术研究进展与产品落地综合分析(2023-2025)
本文从技术研究与产业应用两个维度,系统梳理近三年(2022-2025)该领域的关键突破,并对比分析主流手机厂商的影像技术优劣势。未来,随着6G通信与端侧AI算力突破,暗光增强将进一步向实时化、多模态化演进,成为智慧影像生态的核心支柱。(2023)首次将Transformer架构与Retinex理论结合,提出单阶段视网膜框架(ORF),通过光照估计器与退化修复器的协同,实现低光图像的去噪、对比度增强与颜色校正。其多模态相关性建模模块突破设备空间对齐限制,在高速低光场景下表现突出。清华与ETH联合提出的。原创 2025-03-20 22:04:13 · 366 阅读 · 0 评论 -
理想发布的下一代自动驾驶架构MindVLA是什么?
理想汽车发布的下一代自动驾驶架构是基于“机器人大模型”理念设计的全新技术体系,旨在通过融合空间智能、语言智能和行为智能,将汽车从交通工具转变为“专职司机”。采用“视觉-语言-行为”(VLM)融合的端到端模型,直接从原始传感器数据生成驾驶决策,减少传统模块化流程的延迟和信息损失。引入语言模型(LM)的逻辑推理能力,使系统能快速响应突发场景(如连续避让障碍物)并生成安全驾驶策略。例如,在高速场景下可实现超过130kph的紧急制动(AEB)。原创 2025-03-20 21:53:57 · 485 阅读 · 0 评论 -
为什么说generative models are the new deep learning?
首个支持消费级GPU的大规模视频生成模型,通过3D因果变分自编码器(Wan-VAE)和扩散变换器架构,实现文本/图像到视频的高效生成,显著降低了高质量视频创作的硬件门槛。采用两阶段框架,先在低分辨率阶段确保保真度,再通过流匹配生成高分辨率细节,生成效率提升3倍以上,支持个性化视频定制。全模态语言模型,通过渐进式模态对齐策略,实现文本、图像、视频、音频的统一理解与实时流式解码,性能接近单模态专用模型。多智能体RAG框架,通过高斯混合模型(GMM)策略增强多模态检索的鲁棒性,支持复杂文档的视觉-文本联合推理。原创 2025-03-19 22:37:55 · 166 阅读 · 0 评论 -
【强化学习基石】Deepseek V3技术报告中的GRPO算法是什么?
它主要是在策略梯度方法的基础上进行改进,目的是更有效地优化策略网络,从而提高智能体在环境中的表现。GridWorld 是一个经典的强化学习环境,智能体需要在一个网格世界中找到目标位置。GRPO 的核心思想是通过相对优势来更新策略,它考虑了当前策略和参考策略之间的相对性能,而不是仅仅基于绝对优势。这样做的好处是可以减少策略更新时的方差,使得学习过程更加稳定。不断重复上述交互、计算相对优势和策略更新的过程,直到策略收敛或达到预设的训练步数。你可以运行这个代码,观察智能体在GridWorld环境中的学习过程。原创 2025-03-18 22:08:47 · 215 阅读 · 0 评论 -
【扩散模型入门】Latent Diffusion
扩散模型为公众所知的一个主要原因是Stable Diffusion(SD)的推出展现出了远超以往的图像合成效果,而SD的主要技术就是Latent Diffusion Model(LDM)。为了确保生成质量,LDM尽可能提升去噪模型的规模。提升模型规模往往也会同步导致计算开销的增加,进而导致生成的效率大幅降低。为了克服该负面影响,LDM训练一个自编码器,将图像进行压缩表征,然后在压缩了数据维度的特征空间中进行扩散模型的训练。原创 2025-03-17 21:50:49 · 546 阅读 · 0 评论 -
【DeepSeek应用】本地部署deepseek模型后,如何在vscode中调用该模型进行代码撰写,检视和优化?
通过以上步骤,可实现与本地 DeepSeek 模型的无缝集成,同时完全掌控数据隐私和模型行为。若已成功在本地部署了 DeepSeek 模型(例如通过。原创 2025-03-16 15:58:56 · 627 阅读 · 0 评论 -
LLM推理和优化(2):节省KV Cache
另外MLA的最终版本,还将Q的输入也改为了低秩投影形式,这与减少KV Cache无关,主要是为了减少训练期间参数量和相应的梯度(原论文说的是激活值,个人表示不大理解)所占的显存,这里不再展开。,而MLA的这个做法,通过不同的投影矩阵再次让所有的K、V Head都变得各不相同,那么KV Cache的大小就恢复成跟MHA一样大了,违背了GQA的初衷。然而,理论上这样是能增加模型能力,但别忘了GQA的主要目的是减少KV Cache,出于节省计算和通信成本的考虑,我们一般会缓存的是投影后的。原创 2025-03-14 22:47:15 · 378 阅读 · 0 评论 -
【编解码技术】什么是编码复杂度?
计算量算法需要的乘法、加法、内存访问次数等。例如:H.265/HEVC编码比H.264/AVC复杂约3-5倍,因为它引入了更精细的块划分(最大64x64像素块)和运动补偿算法,每个像素的处理步骤更多。实时场景(如视频通话)要求编码必须在几毫秒内完成,复杂度太高会导致卡顿(手机Soc可能无法硬解某些高复杂度编码)。硬件依赖高复杂度编码(如AV1、VVC)需要专用芯片(如显卡、NPU)或高性能CPU,而低复杂度(如MPEG-4 SP)甚至可在单片机上运行。原创 2025-03-13 22:02:25 · 370 阅读 · 0 评论 -
GUI Agent:定义、进展与未来展望
尽管面临技术瓶颈与伦理挑战,其在自动化、智能化领域的潜力已得到广泛认可。未来,随着多模态技术、自主决策能力的突破,以及开源生态的成熟,GUI Agent有望成为推动AI普及的核心引擎,真正实现“让机器理解人类意图”的终极目标。是一种基于视觉语言模型(Visual Language Model, VLM)的人工智能代理,能够通过图形用户界面(如屏幕截图)感知环境,并模拟人类操作完成跨平台任务。其核心在于无需依赖HTML、API等结构化数据输入,直接通过视觉信息理解界面元素并执行点击、输入、跳转等交互动作。原创 2025-03-11 21:09:42 · 283 阅读 · 0 评论 -
【DeepSeek应用】DeepSeek模型本地化部署方案及Python实现
DeepSeek实在是太火了,虽然经过扩容和调整,但反应依旧不稳定,甚至小圆圈转半天最后却提示“服务器繁忙,请稍后再试。” 故此,本文通过讲解在本地部署 DeepSeek并配合python代码实现,让你零成本搭建自己的AI助理,无惧任务提交失败的压力。原创 2025-03-11 19:26:37 · 1842 阅读 · 0 评论 -
什么是AI Codec?
AI Codec是一种基于深度学习的图像/视频编解码技术,通过端到端神经网络模型实现数据压缩与重建。其核心特点是利用人工智能算法自动学习数据特征,而非依赖传统手工设计的编码规则。原创 2025-03-11 15:58:44 · 175 阅读 · 0 评论 -
为什么VAE效果不好,但VAE+diffusion效果就好了?
VAE(Variational Autoencoder,变分自编码器)是一种基于概率生成模型的深度学习框架,主要用于数据生成和潜在空间建模。它结合了自编码器(Autoencoder)的结构和变分推断(Variational Inference)的思想,能够从数据中学习有意义的潜在表示,并生成与训练数据相似的新样本。VAE的核心思想编码-解码结构编码器(Encoder):将输入数据(如图像)映射到一个低维的潜在空间(latent space),输出潜在变量的分布参数(如均值和方差)。原创 2025-03-10 21:48:47 · 176 阅读 · 0 评论 -
手机影像到2025年是不是已经卷到头了?
可以说手机影像尚未“卷到头”,但需要更聪明的创新方向。未来,手机影像的竞争将从单纯参数比拼转向。,而不仅仅是硬件的堆砌。原创 2025-03-10 08:53:19 · 144 阅读 · 0 评论 -
阿里云 QwQ-32B 模型调研文档
QwQ-32B 是阿里云开源的轻量化大语言模型,以320 亿参数实现与 DeepSeek-R1(6710 亿参数)相当的推理性能。参数效率:1/20 参数量达成竞品性能,显存需求降低 70%部署灵活性:支持消费级硬件(如双 RTX 4090 或 Mac 设备)本地运行开源生态:可通过 Ollama 等工具快速部署,适配企业与个人开发者场景。原创 2025-03-09 19:00:00 · 533 阅读 · 0 评论 -
Ollama入门指南:部署与实战最新模型(DeepSeek-V3、Qwen2.5、Llama3)
通过本指南,您可快速掌握 Ollama 对最新模型的部署方法,并根据实际需求选择最优工具链。Ollama 通过简化模型部署流程,支持开发者快速调用。(支持数学、代码推理,性能接近 GPT-4o)(需阿里云授权,部分版本需手动下载权重文件)(支持多语言,适合通用任务)若需访问外部网络,需开放。(开源 MoE 模型)、(阿里编程旗舰模型)、原创 2025-03-09 11:14:38 · 502 阅读 · 0 评论