100dB环境超清通话——小米自研ENC通话降噪技术揭秘

在今年 2 月 27 日的发布会上,除了万众瞩目的小米SU7 Ultra 与小米15 Ultra 外,还推出了一系列夺人眼球、科技感满满的产品。其中,小米技术团队历经两年打磨的 TWS 耳机 ——XIAOMI Buds 5 Pro,以小米史上最强音质震撼登场,在降噪领域更是实现了惊人突破,成为小米超宽频深度降噪的扛鼎之作。

想象一下,在春运火车站的站台、在轰鸣的生产车间、在音乐狂欢的酒吧中,无论外界环境如何喧嚣,它都能能精准抓取人声,确保通话如在静谧空间般清晰。而这背后,自研 3 麦克风环境噪声消除技术功不可没。接下来,让我们一同深入探索,看小米如何凭借前沿科技,为用户打造极致通话体验,同时解开小米自研 3 麦克风环境噪声消除技术的神秘面纱。

XIAOMI Buds 5 Pro 除了硬件与音质的大幅度提升之外,在降噪上也有了极大的技术突破,是目前小米最强的超宽频深度降噪耳机,另外,XIAOMI Buds 5 Pro 的一大亮点就是可在 100dB 的嘈杂环境中,仍能精准识别人声,实现清晰通话。

实现这一极端环境下清晰的通话降噪效果,背后的技术支撑是自研 3 麦克风阵列的环境噪声消除技术(以下简称 3mic ENC 技术),我们将从技术原理、效果对比、技术升级展望等方向,为大家带来极端环境下实现超清通话的技术介绍。

01

自研环境噪声消除原理

TWS耳机里一般有三个麦克风,一个是通话麦克,一个是前馈麦克,一个是反馈麦克,简称为 3mic 。3mic ENC通话降噪,首先会进行 3 路的自动回声消除(Automatic Echo Cancellation,AEC)+线性回声抑制+非线性回声抑制,能有效消除回声和各种因素导致的非线性回声,保证 3 颗麦克风能将回声信号滤除干净;利用波束形成技术(图中的beamform),将拾音方向聚焦到嘴巴方向,能有效拾取说话者声音。

结合双通路自适应滤波,能将目标人声和环境噪声初步分离,此时可以分离出一路语音通路和一路噪声通路,其中语音通路目标语音信号占主导并有少量噪声信号,噪声通路中噪声占主导并有少量目标语音信号;将两路信号送入自研AI降噪模块和双通道后处理,利用AI算法强大的降低非平稳噪声能力,和双通道后处理降低平稳噪声的强大能力,使得自研 3mic ENC 能轻松应对各种环境噪声,提取出干净的目标人声。

AI降噪模块是自研技术核心之一,其是根据人耳听觉对声音不同频率敏感度不同的特性,将神经网络与计算听觉场景分析深度结合,对不同噪声环境下的人声进行精准提取和增强;同时结合了多种优化方法降低模型的计算复杂度,在较低功耗下达到极致的降噪性能。考虑到TWS耳机使用场景,自研AI降噪模块进行了充足数据训练,覆盖各种场景,其中包括:数千小时+的噪声数据,餐厅、马路、音乐、地铁、公交车、火车、风噪、家居生活、自然环境、车内噪声、车行驶的噪声、鸟叫、敲门等等;仅风噪数据一项,便收集训练了各种类型的风噪,使最终降噪效果得以平稳呈现;同时,AI降噪模块还收集了一万小时以上的干净语音数据,包括男声、女声、老人、小孩、各地方言等等,保证人声效果的干净、清澈。

TWS耳机用户经常会遇到户外刮风或者冬天骑车的场景,此时相对风速常常达到5级风,很容易造成通话信号嘈杂,更常见的场景是在嘈杂市场、公交车、地铁等较大噪声场景临时通话,在这些场景实测中,自研3mic ENC均能获得较好的降噪体验,这依赖于其中四项主要的技术:内麦增强、自适应内外麦映射、风噪检测、风噪抑制

  • 内麦增强:利用反馈麦克风(feedback mic)低通特性和拾取到较高信噪比的特性,对其拾取的信号进行内麦增强,该算法对反馈麦克风信号整体信噪比提升有较大作用;同时增强的信号在大噪声和风噪场景下对保证清晰的语音通话起到重要作用。

  • 自适应内外麦映射:在入耳式耳机中,内麦拾取到的信号也有一定低通特性,听感往往会比较沉闷,且不同人佩戴其低通特性表现不一样,这就导致用以往固定频率的高架滤波方式不可行,因此小米自研团队创新性提出利用内麦频谱映射到外麦频谱的方式,且设计了一套自适应映射方法,使得内麦映射到外麦后听感和外麦非常相似;该算法在大噪声和风噪场景下对保证清晰的语音通话起到重要作用。

  • 风噪检测:利用拾取风噪信号的不相关性检出风噪起始时间和受风噪污染的频段,自研enc的风噪检测速度可以做到15m/s内准确检测到受影响的频带。

  • 风噪抑制:对检出风噪的信号进行风噪抑制,自研方案创新性利用反馈麦克风映射信号替换受风噪污染的频段,该算法能最大限度去除风噪干扰。

在风噪场景下,通过风噪检测检测出风噪起始时间,及风噪污染频段,利用内麦增强和自适应内外麦映射得到未受到风噪污染的干净语音信号(反馈麦克风映射信号),利用其映射信号来替换受风噪污染的频段,从而实现风噪抑制,实测状态下,即使在15m/s风速,即7级强风的情况下,也能够稳定通话。

在较大噪声场景,如嘈杂市场、公交车、地铁、机场等,噪声声压级有时会大于100dB,用户说话声音较小意味着麦克风采集到信号的信噪比较低,在这种场景下,环境噪声的能量强度已经明显大于人声强度,此时双通路自适应滤波、自研AI降噪模块和双通道后处理等算法面临较大挑战,常规的降噪处理手段已难以施展。

在这种极端场景下,自研ENC采用策略类似风噪场景,利用内麦增强自适应内外麦映射得到未受到噪声干扰的干净语音信号,根据背景噪声量估计方法得到的环境噪声量级,动态融合反馈麦克风的映射信号,从而达到提高信噪比作用,以便后续模块工作在最佳状态。

通过以上技术的组合使用,自研ENC算法能轻松应对各种生活场景噪声,保证清晰的语音通话,带给用户最佳体验。

02

效果评价

整体评价

为了验证自研 3mic ENC 降噪效果,我们在大批量人群上进行了十三个维度的效果比较,比较对象包括了 XIAOMI Buds 5 Pro 、上一代 XIAOMI 降噪耳机以及市场某主流竞品,获得了整体评价:

可以看出,引入自研 3mic ENC 降噪后,XIAOMI Buds 5 Pro 在语音响度、语音质量多个维度都明显优于了竞品及上一代的同类产品。

在大样本人群的盲测主观打分中,XIAOMI Buds 5 Pro 也获得了明显更高的加权满意度,相比上一代产品有明显的进步:

环境噪声降噪评价

我们在 XIAOMI Buds 5 Pro 上采用创新通话降噪方案,利用AI降噪算法,融合 3 麦克风阵列技术,充分保障了语音可懂度、清晰度,且优化了之前主流竞品存在的声音发闷等问题;最终实现了 100dB 噪声环境下的信息清晰传达。

以下录音展示了在 100dB 高嘈杂环境下,某竞品耳机与 XIAOMI Buds 5 Pro 试听效果的对比,可带上耳机试听:

通话抗风噪性能评价

通过在 5m/s 到 11m/s 的风速环境下测试,可以明显感受到 XIAOMI Buds 5 Pro 优秀的抗风噪能力,通过自研 ENC 降噪,语音输出响度大、信号平稳、内容丰富。

以下录音展示了在从低到高的风噪环境下,某竞品耳机与XIAOMI Buds 5 Pro 试听效果的对比,可带上耳机试听:

行业技术认证

除了大规模的人群效果评价外,XIAOMI Buds 5 Pro 引用的自研降噪算法还通过了中国计量院抗风噪 15m/s 认证(证书编号202400120030),符合行业要求的降风噪技术标准。

03

技术升级展望

在大模型浪潮之下,音频通信技术也迎来了技术范式的革新,当前音频通信技术正沿着「无损传输、零感延迟、智能交互」三大轴线加速演进。以 Dante 协议为代表的IP化音频传输网络,已实现多通道音频的微秒级同步传输(典型延迟<2ms),为沉浸式会议系统与智能家居生态奠定基础。AI 技术的深度渗透推动通信链路智能化跃迁——如基于神经网络的动态降噪算法可实时分离人声与超高分贝的噪声,说话人识别系统能在 0.3 秒内完成声纹特征提取与身份验证。在 TWS 耳机上应用的自研 ENC 降噪算法,也将沿着生成式大模型的技术路径,探索音频修复技术的效果突破。

采用生成式音频修复技术,通过扩散概率模型+对比学习框架,可以实现在 IoT 设备端实现实时声学环境重构。基于扩散模型,可实现任意长度音频间隙的修复。该技术突破传统监督学习的数据依赖限制,在突发性噪声消除场景(如爆炸声、玻璃碎裂声)中展现出独特价值。例如,Stable Audio 采用的扩散架构可在 10ms 内生成与原始声场物理特性匹配的修复结果。生成式音频修复技术,必将带来信息通话、IOT 设备行业新的革命,在小米应用体系内,我们新的技术升级将应用在以下方面:

智能家居场景

复杂声场解耦:智能音箱通过 Ambisonics 阵列采集 4 通道空间音频,结合 GAN 模型分离重叠声源。在家庭聚会场景中,可精准提取特定人声指令可实现信噪比提升 25dB 以上,即便在吸尘器附近的高噪音干扰下仍可保持极高的识别准确率。

声纹欺骗防御:门禁系统搭载声纹反生成模型,可识别AI语音合成攻击(如生成的高仿语音),防御成功率较传统方案明显提升,有效提高了声纹使用的安全性。

工业物联网场景

设备异常诊断:工业传感器通过 AudioLM 模型分析机械振动音频,实现轴承磨损、齿轮缺齿等故障的声纹特征提取,诊断效率较频谱分析法提升明显。

危险声波预警:建筑工地的边缘计算节点实时检测超声波频段(如玻璃幕墙应力释放声),可实现极高的预警准确率,响应时间也可缩短至 200ms 。

车载系统升级

座舱声场重构:采用神经辐射场(NeRF-Audio)技术,通过 4 个麦克风实现全车舱 3D 声场建模。在高速公路场景下,可动态增强驾驶员侧语音清晰度,同时抑制风噪与胎噪,降噪量达 30dB 以上。

事故音频重建:车载黑匣子利用变分自编码器(VAE)修复碰撞瞬间的破损音频,可实现关键信息复原,为事故责任判定提供关键证据链。

技术挑战与演进路径

尽管当前技术突破显著,在实际应用上,仍需突破三大瓶颈:

边缘端算力约束:现有 RNN-T 模型在 ARM Cortex-M7 芯片的推理时延较高,需开发专用 NPU 加速架构(如特斯拉 Dojo D1 芯片的音频处理单元)

跨场景泛化能力:当前模型在极端场景(如暴雨中的户外监控)的噪声抑制性能会产生下降,需引入元学习框架提升适应能力

隐私安全风险:数据收集过程中,在联邦学习框架下的分布式声纹数据库建设,需满足 GDPR 声纹数据匿名化标准

-

综合来看,通过小米自研的通话降噪技术,现有推出的TWS耳机已可实现比较优秀的环境声和风噪的消除效果,已明显优于行业竞品,可以为用户带来十分优秀的通话降噪体验。而随着技术的升级,采用生成式音频修复技术,耳机降噪效果将会迎来新一轮的巨大提升,为用户带来更清晰、更具质感的音频体验。

END

数据集介绍:多类道路车辆目标检测数据集 一、基础信息 数据集名称:多类道路车辆目标检测数据集 图片数量: - 训练集:7,325张图片 - 验证集:355张图片 - 测试集:184张图片 总计:7,864张道路场景图片 分类类别: - Bus(公交车):城市道路与高速场景中的大型公共交通工具 - Cars(小型汽车):涵盖轿车、SUV等常见乘用车型 - Motorbike(摩托车):两轮机动车辆,含不同骑行姿态样本 - Truck(卡车):包含中型货运车辆与重型运输卡车 标注格式: YOLO格式标注,包含归一化坐标的边界框与类别标签,适配主流目标检测框架。 数据特性: 覆盖多种光照条件与道路场景,包含车辆密集分布与复杂背景样本。 二、适用场景 自动驾驶感知系统开发: 用于训练车辆识别模块,提升自动驾驶系统对道路参与者的实时检测与分类能力。 交通流量监控分析: 支持构建智能交通管理系统,实现道路车辆类型统计与密度分析。 智慧城市应用: 集成至城市级交通管理平台,优化信号灯控制与道路资源分配。 学术究领域: 为计算机视觉算法究提供标准化评测基准,支持多目标检测模型优化。 三、数据集优势 高场景覆盖率: 包含城市道路、高速公路等多种驾驶环境,覆盖车辆静止、行驶、遮挡等现实场景。 精细化标注体系: 采用YOLO标准格式标注,每张图片均经过双重质检,确保边界框与类别标签的精准对应。 类别平衡设计: 四类车辆样本量经科学配比,避免模型训练时的类别偏向问题。 工程适配性强: 可直接应用于YOLO系列模型训练,支持快速迁移至车载计算平台部署。 现实应用价值: 专注自动驾驶核心检测需求,为车辆感知模块开发提供高质量数据支撑。
内容概要:本文介绍了DeepSeek与Mermaid结合实现可视化图表自动化生成的技术及其应用场景。DeepSeek是一款由杭州深度求索人工智能基础技术究有限公司开发的大语言模型,具有强大的自然语言处理能力,能理解复杂的自然语言指令并生成对应的Mermaid代码。Mermaid是一款基于文本的开源图表绘制工具,能够将简洁的文本描述转化为精美的流程图、序列图、甘特图等。两者结合,通过DeepSeek将自然语言转化为Mermaid代码,再由Mermaid将代码渲染成直观的图表,极大提高了图表制作的效率和准确性。文章详细描述了DeepSeek的发展历程、技术架构及应用场景,Mermaid的基础语法和图表类型,并通过一个电商平台开发项目的实战演练展示了二者结合的具体应用过程。 适合人群:具备一定编程基础和技术理解能力的发人员、项目经理、数据分析师等。 使用场景及目标:①需求分析阶段,快速生成业务流程图和功能关系图;②设计阶段,生成系统架构图和数据库设计图;③实现阶段,辅助代码编写,提高编码效率;④验证阶段,生成测试用例和测试报告图表,直观展示测试结果。 阅读建议:在学习和使用DeepSeek与Mermaid的过程中,建议读者结合具体项目需求,多实践生成图表和代码,熟悉两者的交互方式和使用技巧,充分利用官方文档和社区资源解决遇到的问题,逐步提高图表绘制和代码编写的准确性和效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值