音视频工具站-CSDN博客

原创音频编解码算法库 (可支持g711u，g711a，g729，g722，opus等)

一、常见的几种音频编码类型带宽对比：编解码类型压缩速率（Kbps） G.729 8 Kbps G.711 64 Kbps OPUS 6-510 Kbps G722 64 Kbps 二、自研的音频编解码算法库1、这个算法库是可以支持全平台的算法库，是我根据多年的音视频编解码经验自研整理

2022-04-06 11:23:57 6576 1

原创音频回声消除算法

一、回声消除原理回音消除一直是语音通信的难点，从通讯回音产生的原因看，可以分为声学回音（Acoustic Echo）和线路回音（Line Echo），相应的回声消除技术就叫声学回声消除（Acoustic Echo Cancellation，AEC）和线路回声消除（Line Echo Cancellation, LEC），声学回音是由于在免提或者会议应用中，扬声器的声音多次反馈到麦克风引起的（比较好理解）；线路回音是由于物理电子线路的二四线匹配耦合引起的（比较难理解），我们本讲只讨论声学...

2022-03-02 18:06:05 9007

原创 WebRTC 音频抗弱网技术

实时音视频通话一直是我们通信行业必不可少的一门技术，并且近今年音视频边缘设备产品涌现出很多设备，然而，在当今网络环境中，网络传输质量确常常无法得到有效的保障，那么，在当今弱网环境下，如何提升音视频传输的通话质量就显得尤为重要，即便是音视频技术发展到今天，音视频弱网处理仍然是一个不小的技术挑战，本文重点介绍下一种针对弱网环境下的音频处理策略，我们的目标是：在弱网环境下：丢包率30%、延迟300ms、抖动150ms情况下，仍然可以提供流畅的高音频质量通信，做到让用户通话无感。

2024-05-23 18:16:37 1171

原创 AI语音识别技术-ASR

语音识别技术是一种将人的语音转换为文本的技术。其目标是将人类的语音中的词汇内容转换为计算机可读的输入，ASR技术就是将人的语言转化为计算机能够识别的文字的过程。

2024-05-23 17:54:39 1255

原创音频回音消除算法原理分析-DTLN

之前已经介绍了回音产生的原理和大体消除的流程，今天谈谈我们真正写代码逻辑的时候，如何处理回音消除算法。第一，我们写音视频程序开发的时候，首先考虑的是架构设计，所以一般会设计成音频采集逻辑一个线程，音频播放逻辑一个线程，数据通信通过队列加锁的方式，这样处理上可以并行，并且代码看着更清晰，逻辑也简单，可以做到收发数据分离，但是在处理回音算法问题上就会出现或多或少的问题了。

2024-05-17 11:39:39 1123

原创蓝牙音频编解码器-LC3/SBC/AAC/aptx/LDAC

今天接触了下蓝牙设备的编码解码算法，跟常规的有线编码还是有点区别，

2024-05-17 11:28:32 4967

原创声学回声消除的基本原理

如上图所示，我们可以看到两个信号：一个是蓝色和红色混合的信号1 ne，也就是实际需要发送的speech和实际不需要的echo混合而成的语音流；另一个就是虚线的信号2 fe，也就是原始的引起回音的语音。那大家会说，哦，原来回声消除这么简单，直接从混合信号1里面把把这个虚线的2减掉不就行了？请注意，拿到的这个虚线信号2和回音echo是有差异的，直接相减会使语音面目全非。

2024-03-08 14:40:35 592

原创音频啸叫抑制算法

啸叫实际上是扩声系统由于存在声反馈而产生的振荡，整个过程大概如下：在一个扩声系统里，传声器（话筒）接收声信号并转换成电信号，电信号经过调音台、音频处理器等周边设备到功放，然后通过扬声器将电信号转换成声信号辐射出去，辐射出去的声音，有一部分又通过各种路径返回到传声器就产生了声反馈，但是有声反馈不一定就会啸叫，啸叫还要满足两个条件：1、某频率的反馈信号幅度大于此频率原先输入信号的幅度；或者说系统对某频率的闭环电压放大倍数大于1；2、某频率的反馈信号与此频率输入信号相位相同。

2024-03-08 14:25:55 1263 1

原创双麦克降噪技术原理浅谈

由于主、副麦克风需要有一定的信号差值才能实现比较好的降噪效果，此双麦降噪方式适合近距离使用的产品，且要求主、副麦克风摆位不朝一个方向，尽量远离。我自己模拟的双麦降噪的软件算法，使用两个usb麦克，放置角度不同，进行了双麦降噪算法模拟，可以适合应用场景，如嘈杂的车间，车站，机场，站台等环境噪音特别大的地方，我们实测有效降噪可以达到 90dB以上，总体效果还是非常不错的。双麦降噪现在很多硬件设备已经在广泛应用，比如手机设备，而且双麦降噪的方法也有很多，我们今天主要讲的是反馈式双麦降噪的原理。

2024-02-29 15:23:39 1317

原创 webrtc回音消除算法介绍

在回答回声消除之前，我们看这幅图片，如下图所示：当远端Far-end有说话者讲话时，声音会传到近端（Near-end）的扬声器，然后声音通过空间延时和传输延时重新回到了远端。这样就造成了声学回声。近端到远端的流程也有同样声学回声，在此仅仅描述近端的流程.你可能问：我们手机为什么没有这个现象。因为我们手机安卓系统已经实现了回声消除的算法。

2024-02-29 14:21:22 1459

原创音频啸叫检测算法

在某些应用场景下，我们可以只做啸叫检测，管理人员通过综合平台监测到某些终端设备产生异常啸叫后，可以做下一步的处置预案。我们的啸叫检测算法在2秒检测时延内，误检率小于5%，效果还是非常不错的。windows平台和linux嵌入式平台的我都已经编译好了，封装成了sdk库，接口调用也比较简单，如果需要商用的话可以跟我联系，或者有技术问题想要沟通、交流的也非常欢迎。

2024-02-28 17:59:42 1489

原创视频会议之MCU浅谈

视频会议是现代办公中不可或缺的一项技术，它可以帮助人们在不同地点之间进行高效的沟通和协作, MCU是视频会议系统中的重要组成部分，MCU负责接收来自多个终端的视频、音频和数据流，并将它们混合在一起，然后将混合后的流发送给其他终端。MCU还负责管理会议的连接和协调会议的各个参与者。

2024-02-21 13:54:02 1065

原创一篇文章说清楚VAD和CNG

很多做音视频开发的朋友都知道静音检测、静音流，但是真实使用的时候缺不知道什么时候用，到底怎么用，怎么才能用好这些技术，今天跟跟大家简单聊聊这个技术话题。据统计通话过程中静音的时间超过了70％，如果这时还是按普通方式发送音频数据包，会造成带宽的严重浪费！因此引入了VAD和CNG技术，极大减少带宽的消耗。

2024-02-21 10:20:20 589

原创音频AI降噪算法

今天我们主要介绍下AI降噪比较，AI降噪目前效果比较好的就属RNNoise算法模型了，我在实际应用过程中，对比过webrtc的降噪算法，在某些背景噪音比较大的情况下，webrtc的降噪算法效果就不是很好了，但是RNNnoise降噪效果还是比较不错的。虽然AI降噪比较牛，在某些情况下也降噪效果比普通降噪算法要好，但是缺点也比较明显，就是在噪音比较大的时候，有时会有损伤正常的音频，会有吞字的现象，这个就需要对算法进行针对性优化了。如果需要技术问题想要沟通、技术交流讨论、业务合作也非常欢迎。

2024-02-20 11:33:11 1637 1

原创 RTC实时通话中回声消除算法之双讲DTD处理

所以、首先先要确定双讲的状态，既双讲检测，先要判断出来当前通话状态是否在进行双方同时讲话，检测出来后，在通过双讲算法进行处理音频，以下是我在webrtc回音消除算法中做的DTD双讲算法的优化，大家可以看下效果，基本可以解决这个回声消除的问题，使回声消除算法更完善了。里面包含测试程序和可执行文件，windows平台和linux平台的我都已经编译好了，大家可以测试看下效果，接口调用也比较简单，如果需要商用的话可以跟我联系，或者有技术问题想要沟通、交流的也非常欢迎。其原理框图如图所示。

2023-11-17 13:54:00 716

原创音频丢包隐藏技术

在连续丢帧的情况下，PLC所补偿的各个语音帧具有相同的频谱特性（相同的LPC造成）和基音频率，非常容易引入一种可察觉的噪声，尤其是当基音频率较高的时候，这种因为过分的周期性所引起的。比如上次收到的音频包的序号为3，而本次收到的音频包的序号为6，则需要用plc模拟恢复出来两个包4和5，从经验值上来看，最多可以模拟恢复出来3个包，丢太多时效果就不好了，只能按丢包处理或采用其他手段进行恢复。值得注意的是，越靠后面丢失的帧越难以精确的重建，所以对连续丢包的增益采用逐帧递减，以避免引入更大的信号失真。

2023-05-15 16:08:04 851

原创视频编解码算法库 (可支持H263、h264、h265视频编解码)

为了解决各种音频编解码的差异性，我根据多年的音视频编解码经验自研整理了一个编解码算法库，可以支持多种平台应用，项目支持H263、h264、h265等多种视频编解码算法及测试程序和音频文件，后续还会继续更新迭代算法，接口调用也特别简单，几行代码就可以解决所有的视频编解码工作，让音视频开发更简单；在效率方面，h265还是比较吃cpu的，基本上很多时候软编解码都完成不了，所以很多时候需要用的h265的时候，可能需要采用硬编码来实现；微信&tel：13354328150。

2023-05-15 15:14:53 967

原创音频回音消除算法(一)--在语音对讲系统中的应用

2023-05-12 15:44:09 542

原创音频原始数据能量检测算法

很多场合我们需要动态显示实时语音的音量分贝，以展示人的说话声音的大小，以便可以动态条件声音的大小，比较常见的几种音量分贝检测算法有如下几种, 下面做一下简单说明和比较1、计算音频能量数据和算法原理：算法比较简单，首先我们分别累加每个采样点的数值，除以采样个数，得到声音数据求平均能量值。然后再将其做0--32767之间的等比量化。得到1-100的量化值，返回结果。通过实际测试，通常情况下，人声一般都分布在较低的能量范围内，人说话的声音基本在0-35之间，很难达到5...

2022-03-25 13:36:54 4913

原创高质量音频混音算法及应用

一、音频数据格式：处理16bit的PCM音频数据；二、音频混音算法的原理：混音的原理其实很简单，只要多路语音数据做线性叠加即可，但是叠加后的音频数据容易产生溢出，而且混合的路数越多，溢出的可能性越大，所以要做溢出处理，保证数据再32767~(-32768)之间，其实如何完美的处理混音叠加后溢出问题才是混音算法的关键；1、衰减因子：为了更好的解决溢出问题，可以使用一个衰减因子, 对音频数据进行逐渐衰减, 衰减因子会随着数据而变化. 当溢出时,...

2022-03-16 13:29:00 4265

原创音量放大器--软件实现

在音频开发过程中，有的时候人耳会感觉听到的声音比较小，通常我们会调整系统音量，我们除了可以调整系统音量以外，还可以调整声卡采集音频的数字信号的能量，这样我们就可以针对数字信号进行二次放大，我们知道语音波形都是0101xxxx数字组成的，可以把这个波形统一扩大一个权值因子，以提高声音响度，这个过程需要注意：数字信号溢出的处理，否则会有明显的失真，但是单纯的软件方面的数字信号放大也是有一定的限度的，一般测试10倍的数字信号的放大就到上限值了，如果想要得到比较好的效果，还需要配合做数字信号的滤波，...

2022-03-15 10:35:28 972

原创前向纠错算法--用于实时音视频通信RTP丢包恢复

前向纠错算法：是一种差错控制方式，它是指信号在被送入传输信道之前预先按一定的算法进行编码处理，加入带有信号本身特征的冗码数据，在接收端按照相应算法对接收到的信号进行解码，从而找出在传输过程中产生的错误码并将其纠正的技术。由于前向纠错能自动实现纠错，不要求检错重发，因而延时小、实时性好，在高速及超高速系统中得到应用。由于增加了一些额外的冗码，前向纠错技术要付出一定的带宽代价。下图是算法编码、解码的过程：算法特点：每个数据包的大小必须...

2022-03-11 15:49:39 1016

原创一篇文章讲清楚什么是频率、频域、时域

一频率：在1s内完成周期性变化的次数叫做频率，常用f表示。简单的说是一个周期内能够重复的次数，无论是正玄波也好，还是点阵也好，最基本的要求是在一个周期内必须要具备可重复的能力，否则就没办法计算频率，勉强计算的话频率为1Hz；总体来说，频率越高，波形也就越密集，数据也就越详细。为了纪念德国物理学家赫兹的贡献，人们把频率的单位命名为赫兹，简称“赫”，符号为HZ。Hz 是频率的单位。1Hz代表每秒钟周期震动1次，100Hz即100次/秒。再者说音频采样率8000Hz，其...

2022-03-08 10:19:30 16230

原创音频静音检测算法

Voice Activity Detector, 即语音动态检测；在实时通话过程中，静音检测算法在某些场景下还是可以起到关键性的作用：1、节省带宽：用来做语音流检测是否有声音，来决定是否发生音频数据，当检测到用户没有讲话即静音状态时，发送端可以不发送语音报文，只发送静音指示报文，从而降低语音报文占用的带宽。如下所示，正常的语音包负载占据160字节；而静音帧只有几个字节，如下所示：这种情况把VAD阈值设置的要低一些，否则会影响音频的质量，如果阈值过高的话，会有影响说话的...

2022-03-03 17:22:46 4002

原创音频自动增益算法

语音自动增益（AGC）算法，指的是数字层面的，语音波形都是0101数字组成，指的是把这个波形统一扩大或压缩一个权值，以提高或降低声音响度最简单的硬性增益处理是对所有音频采样乘上一个增益因子，它也等同于在频域每个频率都同时乘上这个增益因子，但由于人的听觉对所有频率的感知不是线性的，是遵循等响度曲线的，导致这样处理后，听起来感觉有的频率加强了，有的频率削弱了，导致语言失真的放大。简单说下音量和增益的区别：1、音量是数字波形转模拟波形之后，对喇叭的功率的提高或降低，...

2022-02-28 18:05:15 9078 2

原创音频单通道转双通道算法

其实原理比较简单，假设pcm音频数据a1 a2 a3 是单声道的。那么要转为双声道的音频数据，首先新建一个buf，存成a1a1a2a2a3a3即可，附一段简单的代码，基本可以说明算法思想，供大家参考学习；实例：//MonoTostereoint j = 0;unsigned char *pNewData = (unsigned char*)malloc(iDataLen*2);memset(pNewData, 0, iDataLen*2);for (int i = 0; i...

2022-02-25 16:00:15 2981

原创音频噪音消除算法

音频降噪算法在音频通话处理中是必不可少的，网上公开的算法不是很多，资源也比较有限，绝大多数效果都不是很理想，都无法达到产品级的效果，近期在研究webrtc代码，把WebRTC的噪声抑制模块提取出来，也做了一些细节优化，目前可以支持8k、16k采样率的pcm数据，实际测试效果还是挺不错的，可以看下测试对比图片：上面一行是未处理的原始音频数据，下面一行是噪音处理后的音频数据，处理的相对还是比较干净的。目前这个算法可以应用到多种平台，像windows、linux、android、ios...

2022-02-25 14:59:00 3649

AI自动语音识别软件ASR

该资源支持mic录制自动识别和语音文件转文字两种模式，内附使用说明，使用简单，windows系统即可，可以为某些应用提供方便，免费使用。一句话识别：在250毫秒以内的到文字结果，支持语种：普通话、中英文混合识别另外我们团队自研了AI自动语音识别算法，可提供免费试用，支持语音实时转写，关键字、违禁词设置，无需云端支持，支持离线识别，sdk简单集成，可提供动态库；

2024-05-23

音频编解码算法库 (支持g711u，g711a，g729，g722，opus等)

1、这个算法库是我根据多年的音视频编解码经验自研整理的一个编解码算法库，支持g711u，g711a，g729，g722，opus等音频编解码算法及测试程序和音频文件，后续还会继续更新，接口调用特别简单，几行代码就可以解决所有的音频编解码工作，让音视频开发更简单； 2、可以支持全平台的算法库，目前我只做了linux 和 windows的测试，其他平台如有需要也可以支持；

2022-04-02

PCM原始数据的音频能量检测算法

音量检测算法，通过目前网上比较流行的算法理论公式进行改进，可以针对PCM音频数据完成音量值的检测，测试效果比较准确，可以量化到0--100数据值，欢迎大家测试；

2022-03-25

高质量音频混音算法及应用

可以处理16bit的PCM音频数据进行混音，做了溢出处理，效果比较好，里面包含混音库和测试程序，支持跨平台；

2022-03-16

音频PCM数据音量放大器

软件实现的pcm数据音量放大器

2022-03-15

前向纠错算法(FEC)在实时音视频通信RTP丢包恢复中的应用

前向纠错算法(FEC)在实时音视频通信RTP丢包恢复中的应用,windows平台和linux平台的我都已经编译好了，大家可以测试看下效果，接口调用也比较简单，欢迎技术交流。

2022-03-11

音频静音检测算法-VAD

一、编译环境： windows：VS2017; linux：cenos7.0; android、ios、arm平台也可支持; 二、基于webrtc_vad抽取的静音检测算法，已经编写测试用例和测试音频文件，简单通俗易懂，大家可以直接拿到项目中使用，比较稳定。

2022-03-03

基于webrtc优化后的音频回音消除算法

我最近基于webrtc的回音消除算法做了一个测试，里面包含demo和算法库，内部也做了一些优化，目前这个算法可以应用到多种平台，像windows、linux、android、ios、arm平台都可以支持，目前只做了windows、linux的测试，大家可以下载看下，效果还是比较明显，基本上在很短时间内就可以完成回音收敛算法的学习。

2022-03-02

基于webrtc优化后的音频自动增益算法

近期在研究webrtc代码，把WebRTC的音频自动增益模块提取出来，也做了一些细节优化，目前可以支持8k、16k采样率的pcm数据，实际测试效果还是挺不错的，大家可以测试下效果；

2022-02-28

基于webrtc优化后的音频降噪处理算法

近期在研究webrtc代码，把WebRTC的噪声抑制模块提取出来，也做了一些细节优化，目前可以支持8k、16k采样率的pcm数据，实际测试效果还是挺不错的，大家可以测试下效果；

2022-02-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人