- 博客(126)
- 收藏
- 关注

原创 vivo X200 Ultra前瞻系列(2):vivo X200 Ultra影像技术沟通会总结
vivo于今日(2025年4月14日)举办的“X系列蓝图影像技术沟通会”中,正式发布了。,展示了其在移动影像领域的多项技术突破。(注:以上参数基于2025年4月发布信息,实际以官方为准。
2025-04-14 22:24:03
456

原创 【AI产品】Manus,启动!
后面还会继续分享更多的试用体验,也欢迎大家一起加入探索,把这个工具用得更好~如果你有有关AI生产力工具的好点子也可以联系我,我们一起讨论,为社区做出贡献。科学之后就可以注册了。注册后,我先在手机上玩了一把。这样那样,跟之前yxh上写的挺相似的。大概十几分钟后,真的给我产出了一份报告!但是这么几大段就这么一条注释,我也是很费解啊!Try了第一步,就需要科学上网,因为国内呢,是跟千问合作的,现在还不能用。打开了一看,内容还真的很像那么回事的!所以我火速让manus增加了一下注释,出了个新版。
2025-04-12 11:25:39
195

原创 vivo X200 Ultra前瞻系列(1):重塑影像旗舰标准
在色彩风格化、视频专业度上实现了安卓阵营的突破性进步。其2亿像素长焦、双LYT-818传感器及5轴防抖技术,对追求个性化创作的用户具有强吸引力。若真机表现能兑现硬件承诺,X200 Ultra有望重新定义手机影像的“专业”标准。然而,其厚重设计、价格门槛及生态适配问题,仍需市场检验。vivo X200 Ultra作为2025年上半年影像旗舰,以“全焦段夜视仪+电影级视频”为核心卖点,主打。,对标小米15 Ultra、OPPO Find X8 Ultra等竞品。,顶配版(24GB+2TB)逼近万元。
2025-04-08 21:41:22
596

原创 今天全网爆火的Manus到底是什么?Manus的功能与意义深度解析
Manus的爆火既反映了市场对AI Agent的期待,也暴露了技术炒作与真实能力之间的落差。对普通人而言,它是潜在的效率工具;对从业者,则是技术迭代与商业化的试验场。其长远意义在于推动AI从“辅助”走向“执行”,但需警惕过度营销对行业信誉的消耗。,而非仅提供建议或答案。该产品因宣称“知行合一”的能力(如自动生成PPT、分析股票、筛选简历等)迅速引发行业热议,甚至导致官网因流量激增崩溃,邀请码被炒至数万元。注册,但官方强调未开放付费渠道,二手平台的邀请码多为虚假信息。目前Manus处于内测阶段,需。
2025-03-06 20:57:21
4264
1

原创 2025年了,AI算法工程师的校招主要考察哪些内容?
结合大模型时代的技术趋势与计算机视觉(CV)算法岗的校招要求,校招考察要点呈现以下核心特征:编程与算法基础深度学习与CV专业知识项目与实战经验大模型核心技术前沿技术与创新思维工程与落地能力岗位类型差异行业招聘趋势技术准备简历与面试优化行业动态跟踪大模型时代下,CV算法岗校招呈现**“基础能力强化+技术边界扩展”**的双重特征:
2025-03-05 19:15:49
1261

原创 什么是Grok-3?技术特点,场景,潜在问题与挑战
Grok-3 通过超大算力投入和思维链推理机制,在数学、科学及编程领域建立了显著优势,多模态功能与特斯拉整合则拓宽了应用边界。然而,其高成本训练模式、潜在数据偏见及激烈的市场竞争,仍是未来发展的关键挑战。
2025-02-19 22:34:55
1020

原创 DeepSeek-R1技术革命:用强化学习重塑大语言模型的推理能力
DeepSeek-R1的成功验证了算法创新比算力堆砌更重要的技术哲学。通过GRPO算法与规则奖励系统的精妙设计,团队用1%的成本实现了顶尖性能,这为开源社区提供了可复现的技术范本。随着更多研究者加入这场推理能力的进化竞赛,我们正在见证AGI发展路径的根本性转向——从依赖人类标注的被动学习,走向自主探索的智能涌现时代。
2025-02-09 21:16:50
2983
1
原创 【图像处理基石】什么是去马赛克算法?
速度优先:双线性插值(实时预览)、VNG(早期手机)。画质优先:深度学习算法(现代旗舰相机/手机)、Malvar算法(专业RAW处理软件)。平衡方案:方向插值、Hirakawa算法(中等计算量,较好抑制伪色)。Demosaic算法是连接传感器原始数据与全彩图像的桥梁,其核心是通过插值策略智能填充缺失的颜色通道。从简单的双线性插值到复杂的深度学习模型,算法的选择需平衡图像质量、计算效率和硬件适配,是成像系统(如相机、手机)画质优化的核心技术之一。
2025-04-20 11:59:53
774
原创 vivo X200 Ultra前瞻系列(3):什么是经典负片风格?
早期探索:摄影术诞生于19世纪,早期的摄影方法如达盖尔银版法等,虽然能够记录影像,但存在诸多局限,如影像不可复制、拍摄成本高昂等。1839年,英国发明家塔尔博特发明了卡罗式摄影法,这是一种基于纸质底片的摄影方法,被认为是负片摄影的早期雏形。卡罗式摄影法的底片是一张经过碘化银处理的纸,曝光后通过显影和定影处理,得到一张负像,然后可以通过接触印相的方法制作出正像照片。这种方法的出现,为后来负片技术的发展奠定了基础。胶片时代的辉煌:19世纪后期,随着明胶干版技术的发明,负片摄影得到了极大的发展。
2025-04-18 09:33:18
351
原创 【图像处理基石】什么是通透感?
画面的通透感指图像在色彩鲜明度、空间层次感、物体轮廓清晰度色彩鲜明:颜色纯净且饱和度适中,无灰暗或浑浊感;层次分明:明暗过渡自然,光影对比合理,空间纵深感强;轮廓清晰:物体边缘锐利,细节保留完整,无模糊或雾化现象。
2025-04-13 22:25:11
776
原创 【Grok 大模型深度解析】第二期:架构探秘与训练哲学
在大规模模型训练中,传统的分布式训练框架面临着诸多挑战。随着模型参数规模的增大和数据量的爆炸式增长,数据并行和模型并行的协调变得极为复杂。在数据并行模式下,不同计算节点之间需要频繁地同步梯度信息,这会导致网络通信开销大幅增加,成为训练效率的瓶颈。而在模型并行模式下,如何合理地将模型的不同部分分配到不同的计算节点上,以充分利用每个节点的计算资源,同时避免节点之间的负载不均衡,是一个非常棘手的问题。为了解决这些问题,Grok 团队自研了基于 JAX + Rust 的自定义训练框架。
2025-04-11 21:21:13
318
原创 【Grok 大模型深度解析】第一期:技术溯源与核心突破
Grok大模型通过混合架构、思维链推理和实时联网能力,重新定义了AI的边界。对于开发者,可基于Grok-1进行行业定制;企业用户可接入Grok-3 API提升服务效率;学术研究者可关注其开源生态的技术演进。未来,Grok有望在AGI探索中扮演关键角色,同时也需应对伦理、监管等挑战。建议持续关注xAI的技术动态,参与开源社区贡献,共同推动AI技术的普惠与安全发展。
2025-04-10 22:38:59
213
原创 【图像处理基石】什么是影调?并用python实现一个哈苏色彩影调
影调指画面中明暗、虚实、色彩的层次与对比关系,通过这些元素的组合形成光的流动感、空间感及氛围,直接影响作品的视觉情绪。影调是摄影语言的核心,通过控制明暗、虚实与色彩,可精准传达创作意图。实际选择需结合主题情感、光线条件及画面结构,灵活运用高调、低调或冷暖色调,以强化视觉表现力。根据哈苏影调的核心特点(自然色彩、细腻的层次感和动态范围),可通过Python结合色彩空间转换、LUT映射和曲线调整实现类似效果。如需更精确的模拟,建议结合哈苏官方HSP色彩文件(需授权)或分析实际样张生成LUT。
2025-04-10 14:42:08
1282
2
原创 【深度学习新浪潮】deepseek和llama系列模型的技术路线有什么异同?
未来,两者可能进一步融合技术路线:DeepSeek或加强多模态能力,LLaMA可能借鉴低精度训练等优化手段。开发者可根据具体需求选择模型——追求极致效率选DeepSeek,需要多模态通用性则选LLaMA。DeepSeek和LLaMA系列作为当前主流的开源大模型,在技术路线上既有共性也有显著差异。
2025-04-09 22:07:05
112
原创 【图像处理基石】什么是ISP色彩管理?
在ISP(Image Signal Processor,图像信号处理器)管线中,色彩管理是图像处理流程的核心环节,主要负责从传感器原始数据(RAW)到最终输出图像(如YUV、RGB或JPEG)的色彩转换、校正和优化。ISP中的色彩管理直接影响成像质量,包括颜色准确性、动态范围、白平衡、色调和饱和度等。ISP管线中的色彩管理是成像质量的核心,涉及从RAW数据到输出图像的全链路处理。随着计算摄影(如多帧融合、AI调色)的发展,色彩管理正从传统标定方法转向动态、智能化的解决方案,以满足不同场景和用户需求。
2025-04-07 23:38:23
1179
原创 【图像处理基石】什么是自动曝光(AE)?
自动曝光(Auto Exposure, AE)是一种通过调整相机参数(如曝光时间、增益、光圈等)使图像亮度达到目标值的技术。其核心是通过实时分析图像亮度,动态优化参数以保证成像质量。AI AE算法已从规则驱动转向数据驱动,通过深度学习、强化学习等技术显著提升了复杂场景的适应性。未来研究将聚焦于轻量化部署、跨模态协同和硬件-算法联合优化,推动AE在自动驾驶、工业检测等领域的应用。
2025-04-06 21:13:32
1050
原创 【深度学习新浪潮】视觉与多模态大模型文字生成技术研究进展与产品实践
视觉与多模态大模型在文字生成领域已从单一模态向深度融合演进,通过架构创新与领域优化逐步解决传统效果问题。产品层面,工具链的完善(如DeepSeek、CogView4)显著提升了内容生产效率,而GPT-4o的突破性表现进一步推动了行业变革。未来,跨模态推理、轻量化部署及多模态交互将成为技术突破的核心方向,同时需平衡伦理合规与技术创新。
2025-04-05 22:01:25
258
原创 【图像处理基石】什么是neural style transfer?
神经风格迁移(Neural Style Transfer)是一种利用深度学习技术将一幅图像的风格(如笔触、色彩、纹理等)与另一幅图像的内容(如物体、场景结构)结合的方法。其核心思想是通过神经网络分离并重组图像的内容和风格信息,生成具有新视觉效果的艺术化图像。
2025-04-04 21:02:09
1198
原创 【5分钟论文阅读】InstructRestore论文解读
本文提出InstructRestore框架,用于实现基于人类指令的区域定制化图像恢复。针对现有方法缺乏区域定制恢复能力的问题,开发数据生成引擎构建536,945个三元组的数据集,设计类似ControlNet的模型。该模型能识别目标区域并分配不同整合尺度,实验表明InstructRestore可有效按指令恢复图像,如实现背景虚化和局部增强效果,但存在实例级对象指定支持不足、指令模板固定等局限研究背景:图像恢复是计算机视觉的基础问题,基于深度学习的判别式模型和生成对抗网络模型存在过度平滑或引入视觉伪影的问题。
2025-04-03 23:01:25
365
1
原创 【图像处理基石】什么是tone mapping?
Tone mapping(色调映射)是一种用于将高动态范围(HDR)图像的颜色值映射到低动态范围(LDR)的技术,目的是使图像能够在有限动态范围的显示设备(如屏幕、打印机等)上呈现,同时尽可能保留视觉细节和自然观感。动态范围压缩现实世界的亮度范围(HDR)远超普通显示器或相纸的显示能力。例如,人眼可感知的亮度范围可达10^14:1,而普通LCD显示器仅为约1000:1。Tone mapping通过算法压缩HDR数据,使其适应设备的显示限制。视觉效果优化。
2025-04-03 22:07:20
1132
原创 【图像处理基石】什么是RAW格式?
因为RAW保留了原始数据,摄影师可以在后期通过软件(如Adobe Lightroom、Capture One)调整白平衡、曝光度、对比度、饱和度等参数,甚至在过曝或欠曝的情况下恢复细节。RAW文件直接记录了相机传感器(如CMOS或CCD)捕捉到的每个像素的原始光强度和色彩信息,未经过相机内部的自动处理(如白平衡、锐化、降噪、色彩优化等)。不同相机厂商的RAW格式(如Canon的CR2/CR3、Nikon的NEF、Sony的ARW等)可能需要特定软件支持,或通过转换为通用格式(如DNG)。
2025-04-02 22:07:59
1208
原创 【深度学习新浪潮】DeepSeek近期的技术进展及未来动向
DeepSeek近期以模型性能突破和开源策略为核心,在技术架构、成本控制及行业应用上取得显著进展。未来将聚焦模型迭代(如R2、V4)、算力生态协同和多场景深化(如AI眼镜、储能),同时应对实时信息处理和多模态能力的技术挑战。其全球化布局和技术标准化努力,将进一步巩固其在AI领域的竞争力。
2025-04-02 21:56:53
431
原创 【深度学习新浪潮】AIOS的研发进展与未来展望
AIOS(Artificial Intelligence Operating System,人工智能操作系统)是一种深度融合人工智能技术的操作系统,其核心目标是通过集成大语言模型(LLM)、机器学习、自然语言处理(NLP)、计算机视觉(CV)等AI能力,实现设备智能化、服务个性化和生态互联化。与传统操作系统不同,AIOS不仅负责硬件资源管理,更强调通过AI技术主动理解用户需求、优化任务执行,并在多设备间形成协同智能。:蔚来自研芯片“神玑NX9031”算力更高,英伟达新一代芯片即将上车,小鹏需加速技术迭代。
2025-04-01 21:25:04
515
原创 【深度学习新浪潮】Grok过去两周的进展一览(2025.04.01)
Grok的发展路径呈现“技术突破驱动应用落地”的特点,通过多模态、大算力、开源化构建核心竞争力,同时在伦理与商业化之间寻求平衡。未来,其可能成为覆盖消费级交互、企业级解决方案及垂直领域深度应用的综合AI平台。总体来看,Grok 3的发布标志着xAI在模型性能、应用场景和商业化策略上的重大突破,同时也加剧了AI领域的竞争与伦理讨论。通过上述技术路径,Grok旨在实现从通用语言理解到跨领域复杂推理的全面突破,成为兼具性能与可靠性的AI推理引擎。
2025-04-01 09:23:52
299
原创 【深度学习新浪潮】什么是推理模型?
推理模型(Reasoning Model)定义推理模型通常指专门用于处理逻辑推理、因果推断、数学计算或常识推理任务的模型。这类模型可以是基于符号逻辑(如专家系统)、概率图模型(如贝叶斯网络),或是结合深度学习的混合模型(如神经符号系统)。典型任务数学题求解(如“3+5=?”)、逻辑谜题(如数独)、因果推理(如“如果下雨,地面会湿吗?”)等。GPT是通用语言模型,擅长文本生成与上下文理解,但可能缺乏严格推理能力。推理模型专注特定任务,准确性更高,但依赖标注数据和领域知识。趋势。
2025-03-31 12:38:54
180
原创 【深度学习新浪潮】什么是最近大火的vibe coding?
Vibe Coding是一种依赖人工智能的编程范式,开发者通过自然语言描述需求(如功能、逻辑或目标),由大型语言模型(LLM)自动生成代码,全程无需手动编写代码。例如,开发者只需说“创建一个电商网站的购物车功能”,AI即可生成对应代码。主要好处降低编程门槛:无需掌握具体编程语言,普通人也能通过自然语言开发软件,实现“全民编程”。提升效率:复杂功能可通过AI快速生成,减少重复性编码工作。支持创新:开发者可专注于创意设计,AI处理技术细节,例如通过语音指令直接生成代码。潜在问题代码质量与可维护性。
2025-03-30 17:22:41
404
原创 【深度学习新浪潮】具身智能及其发展前景分析
具身智能(Embodied Intelligence)是指通过物理载体(如机器人)与环境实时交互,实现感知、决策与行动闭环的智能系统。其核心在于将人工智能与物理实体结合,强调“智能源于身体与环境的互动”,而非仅依赖虚拟算法。具身智能的典型特征包括多模态感知(视觉、触觉、听觉等)、自主决策能力(如基于大语言模型的自然语言指令解析)以及自学习能力(通过数据迭代优化任务执行)。具身智能正从实验室迈向规模化商用,国内厂商在政策支持与技术追赶中展现强劲潜力。
2025-03-29 20:38:46
219
原创 【图像处理基石】什么是refocus?
Refocus(重新对焦)是一种通过算法调整图像或视频焦点的技术,允许用户在拍摄后选择焦点,实现类似光场相机的“先拍照后对焦”效果。其核心是通过多视角信息或深度估计,生成不同焦平面的图像,并模拟浅景深(如背景虚化)。通过结合硬件创新与算法优化,手机 Refocus 技术正逐步逼近单反级虚化效果,成为移动端影像的核心竞争力之一。
2025-03-29 16:32:28
1070
原创 【图像处理基石】什么是joint demosaicking and denoising算法?
Joint Demosaicking and Denoising 通过统一框架处理颜色重建和噪声抑制,在提升图像质量的同时减少传统分步处理的缺陷。随着深度学习的发展,端到端模型在复杂场景下展现出显著优势,但如何平衡效率、鲁棒性和细节保留仍是研究热点。Demosaicking 通过插值算法,从不完整的颜色信息中重建每个像素的完整 RGB 值,生成全彩色图像。是一种结合了去马赛克(Demosaicking)和去噪(Denoising)的图像处理技术,旨在从原始传感器数据中同时重建全彩色图像并减少噪声。
2025-03-28 21:38:02
800
原创 【图像处理基石】什么是神经渲染?
神经渲染(Neural Rendering)是一种结合深度学习技术和计算机图形学的新型图像生成方法。它利用神经网络(如生成对抗网络、Transformer等)从数据中学习场景的特征或物理规律,从而生成高质量的图像、视频或3D内容。与传统基于物理的渲染(如光线追踪)不同,神经渲染更注重从数据中学习复杂的视觉效果,而非完全依赖显式建模。NeRF(Neural Radiance Fields)的计算流程NeRF 是一种基于神经网络的隐式3D场景表示方法,通过多视角图像训练后,可渲染任意新视角的逼真图像。
2025-03-27 22:18:52
1402
原创 【深度学习新浪潮】图像修复(Image Inpainting)技术综述:定义、进展与应用展望
图像修复(Image Inpainting)是一种通过算法手段填补图像中缺失区域或移除不需要对象的技术,其核心目标是利用图像上下文信息生成与周围像素一致且视觉自然的内容。该技术通过计算机视觉和深度学习模型,从损坏、遮挡或人为标记的区域中推断出合理的像素填充,最终实现图像的无痕修复。从数学视角看,图像修复可建模为一个逆向优化问题:在已知图像非缺失区域像素值的情况下,通过最小化能量函数或学习数据分布,推断缺失区域的最优解。
2025-03-27 22:09:42
445
原创 【深度学习新浪潮】展平RVQ技术详解
展平 RVQ 是一种结合了残差矢量量化和展平操作的高效数据压缩技术。它通过多阶段量化逐步逼近原始数据,并利用展平策略优化存储和计算效率。这种方法在高维数据的压缩和表示中具有广泛的应用前景,但同时也需要在精度、存储和计算之间找到平衡点。
2025-03-26 22:19:08
393
原创 【深度学习新浪潮】ISP中的Color Constancy算法研究综述
Color Constancy(色彩恒常性)指人类视觉系统在不同光照条件下感知物体真实颜色的能力,例如在黄光照射下仍能识别白纸为白色。在图像处理领域,该技术旨在通过算法模拟这一能力,消除光源色偏对图像色彩的影响,还原物体本征颜色。ISP(Image Signal Processor)中的Color Constancy算法是自动白平衡(AWB)的核心模块,其作用是对相机捕获的原始图像进行光源估计与色彩校正,确保输出图像色彩一致性。
2025-03-26 22:10:15
364
原创 【图像处理基石】ISP中的TNR算法详解:原理、实现与优化
时域降噪(Temporal Noise Reduction, TNR)是图像信号处理器(ISP)流水线中的核心模块之一,主要用于视频或图像序列的噪声抑制。其核心思想是通过利用多帧图像之间的时间相关性,区分静态背景与动态物体,从而在保留细节的同时降低噪声。TNR算法通过二十余年的发展,已从简单的帧平均演进到深度学习与经典CV结合的混合架构。基于物理的噪声建模与神经网络结合超低功耗硬件实现(<10mW)极端场景下的鲁棒性提升(如1000fps高速摄影)
2025-03-23 23:41:21
1389
原创 【深度学习新浪潮】AI ISP技术与手机厂商演进历史
从算法创新到硬件架构升级,再到厂商生态竞争,这一领域的技术迭代速度远超传统ISP时代。未来,随着量子计算、新型存储技术的导入,AI ISP有望进一步突破物理限制,成为智能终端的核心驱动力。本文是关于AI ISP(人工智能图像信号处理器)的技术解析、与传统ISP(图像信号处理器)的区别、近三年研究进展,以及各大手机厂商在该领域演进历史的详细报告。传统ISP(Image Signal Processor)是手机摄像系统的核心组件,负责将摄像头传感器捕获的原始RAW数据转换为可视的RGB图像。
2025-03-21 23:51:30
372
原创 暗光增强技术研究进展与产品落地综合分析(2023-2025)
本文从技术研究与产业应用两个维度,系统梳理近三年(2022-2025)该领域的关键突破,并对比分析主流手机厂商的影像技术优劣势。未来,随着6G通信与端侧AI算力突破,暗光增强将进一步向实时化、多模态化演进,成为智慧影像生态的核心支柱。(2023)首次将Transformer架构与Retinex理论结合,提出单阶段视网膜框架(ORF),通过光照估计器与退化修复器的协同,实现低光图像的去噪、对比度增强与颜色校正。其多模态相关性建模模块突破设备空间对齐限制,在高速低光场景下表现突出。清华与ETH联合提出的。
2025-03-20 22:04:13
334
原创 理想发布的下一代自动驾驶架构MindVLA是什么?
理想汽车发布的下一代自动驾驶架构是基于“机器人大模型”理念设计的全新技术体系,旨在通过融合空间智能、语言智能和行为智能,将汽车从交通工具转变为“专职司机”。采用“视觉-语言-行为”(VLM)融合的端到端模型,直接从原始传感器数据生成驾驶决策,减少传统模块化流程的延迟和信息损失。引入语言模型(LM)的逻辑推理能力,使系统能快速响应突发场景(如连续避让障碍物)并生成安全驾驶策略。例如,在高速场景下可实现超过130kph的紧急制动(AEB)。
2025-03-20 21:53:57
467
原创 为什么说generative models are the new deep learning?
首个支持消费级GPU的大规模视频生成模型,通过3D因果变分自编码器(Wan-VAE)和扩散变换器架构,实现文本/图像到视频的高效生成,显著降低了高质量视频创作的硬件门槛。采用两阶段框架,先在低分辨率阶段确保保真度,再通过流匹配生成高分辨率细节,生成效率提升3倍以上,支持个性化视频定制。全模态语言模型,通过渐进式模态对齐策略,实现文本、图像、视频、音频的统一理解与实时流式解码,性能接近单模态专用模型。多智能体RAG框架,通过高斯混合模型(GMM)策略增强多模态检索的鲁棒性,支持复杂文档的视觉-文本联合推理。
2025-03-19 22:37:55
157
原创 【图像处理基石】什么是HDR图片?
HDR(高动态范围图像,High Dynamic Range)是一种通过技术手段扩展照片明暗细节的成像方式。核心原理动态范围:指图像中最亮和最暗区域之间的亮度差。人眼能感知的动态范围远高于普通相机,HDR通过合成多张不同曝光的照片(如欠曝、正常、过曝),平衡高光和阴影细节。HDR的优势保留细节:避免强光下过曝(如天空发白)或阴影中欠曝(如暗部死黑)。增强真实感:还原人眼所见的丰富层次,尤其适合高对比度场景(如日出、室内外混合光线)。色彩优化:提升色彩饱和度和渐变过渡的自然性。常见应用场景。
2025-03-19 22:20:48
2095
1
机器学习与模式识别领域的PRML习题解析手册
2025-03-10
在TensorFlow中将预训练好的模型转换成tflite格式模型的python代码实现
2025-03-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人