语音处理
文章平均质量分 69
来知晓
时光如流水
一定要从中
捉几条鱼
展开
-
音频筑基:为啥一个压缩率概念,中文搜索结果都是错的?
综上,百度百科等说压缩率越小越好的,应该这么理解:比如50%,表示100M的文件,压缩后为50M,分子越小压缩率越高。的效果名,是文件压缩后的大小与压缩前的大小之比,例如:把100m的文件压缩后是90m,压缩率为90/100*100%=90%。有的说,压缩率越小于浩,有的又说,压缩率越大越好。,谷歌一下结果有的是讲气体压缩(不在此文讨论范围),而讲数据压缩的呢,把我搅更晕了。我就不太理解了,直觉来看,压缩率衡量压缩的能力,不是越大越好吗?压缩率一般是越小越好,但是压得越小,解压时间越长。原创 2024-08-26 19:49:38 · 1039 阅读 · 0 评论 -
音频筑基:入门50问
只问不答,意在启发原创 2024-07-12 18:09:24 · 500 阅读 · 0 评论 -
音频筑基:100字说清哈曼曲线的Why和What
音频筑基:100字说清哈曼曲线的Why和What原创 2024-05-15 20:48:01 · 508 阅读 · 0 评论 -
音频筑基:200字说清声和音的区别(Sound/Audio/Music/Voice/Speech辨析)
音频筑基:200字说清声和音的区别(Sound/Audio/Music/Voice/Speech辨析)原创 2024-05-15 20:26:31 · 537 阅读 · 0 评论 -
音频筑基:CD还是HiRes?高清音频分类一文说透
音频信号中,经常遇到高清音乐、无损音质、CD、HiRes等说法,本文主要在纯数字信号级别,从音源分类和编码质量两个维度,做一个分析小结。原创 2024-02-29 17:49:27 · 1664 阅读 · 0 评论 -
音频筑基:一文搞懂DFT/FFT/DCT/MDCT的区别
音频信号处理中时常用到时频域转换,这里简单总结下常用的DFT、FFT、STFT、MDCT的区别。开始前,先感谢傅里叶大哥,是他给了我们一碗饭吃。原创 2024-02-23 18:07:55 · 1939 阅读 · 0 评论 -
音频筑基:时延、帧长选取的考量
音频算法中,时延和音频帧长的选择通常是个需要平衡的参数,这里分析下背后的考量因素。原创 2024-01-19 20:41:50 · 1435 阅读 · 0 评论 -
音频筑基:算法时延分析
音频算法中,经常遇到时延分析的问题,刚开始接触大多都比较迷惑,这里将自己对时延的学习思考梳理总结于此。原创 2024-01-16 20:38:16 · 1016 阅读 · 0 评论 -
音频筑基:巴克谱和梅尔谱辨析
在音频信号处理中,巴克谱和梅尔谱是我们经常遇到的概念,也是语音处理中常用到的频域特征,这里谈谈自己对它们的理解。原创 2024-01-03 18:09:03 · 1111 阅读 · 0 评论 -
音频筑基:码率模式CBR、VBR、CVBR一文说清
在音频编码或者网络传输中,码率是我们经常遇到的概念,这里谈谈自己对CBR、VBR、CVBR模式的理解。原创 2023-12-26 20:53:29 · 3571 阅读 · 0 评论 -
音频筑基:基音、基频和共振峰
音频信号分析中,经常遇到基音、周期、共振峰的概念,这里总结下自己的粗浅理解,不当之处,还望各位大佬提出指正。原创 2023-12-21 19:49:38 · 2791 阅读 · 0 评论 -
音频筑基:瞬态、基音、偏噪信号类型分析
在分析音频信号中,不同信号类型如瞬态、基音、偏噪信号是我们经常遇到的概念,这里谈谈自己的理解。原创 2023-12-18 19:54:52 · 684 阅读 · 0 评论 -
音频筑基:总谐波失真THD+N指标
在分析音频信号中,THD+N指标是我们经常遇到的概念,这里谈谈自己的理解。原创 2023-12-14 19:52:10 · 2605 阅读 · 0 评论 -
音频筑基:信噪比SNR指标
信噪比是我们在分析音频信号中,经常遇到的概念,这里谈谈自己的理解。原创 2023-12-13 17:44:22 · 1918 阅读 · 0 评论 -
语音处理:Python实现Wav序列的声道拆分与合并
项目中有时需要将多声道拆分成单声道,再将单声道进行分别处理,然后再合并为多声道。为提升批量处理音频序列的效率,写了以下脚本供参考。原创 2023-10-18 19:42:16 · 1439 阅读 · 0 评论 -
语音处理:Python实现常用音频参数计算
语音处理实践中,经常遇到需要根据相关音频信息计算某些常用参数,比如:一帧样点数、一帧比特数、原始码率等,于是将公式固化成脚本,只动一次脑,下次动下电脑就行。原创 2023-04-11 09:49:06 · 612 阅读 · 0 评论 -
语音处理:Python实现dBFS刻度和采样值相互转换
以对数域常用的dBFS刻度为例,支持主流音频信号位深:整型16/24/32位和浮点32位,编写Python实现对数域和采样值单位互换功能原创 2022-11-24 19:21:57 · 1094 阅读 · 0 评论 -
语音处理:音频入门之基础概念总结
语音处理:音频入门之基础概念总结基本概念过采样:超过音频本身实际带宽的采样率,如音频带宽12kHz,用96kHz采样属于过采样,用24kHz采样则较为合理。上采样,也属于过采样。常见采样率:16/32/48/44.1/48/88.2/96kHz。上采样:从较低采样率上升至高采样率,如16kHz采样提高至48kHz采样,本质采用的是插值方法。下采样:从较高采样率下降至低采样率,如48kHz采样下降至16kHz采样,本质采用的是抽样方法。上混:多个单声道混成多声道,类似于声轨处理。下混:原创 2022-04-15 18:04:02 · 3929 阅读 · 0 评论 -
音频筑基:粉噪和白噪的区别是什么?
粉噪、白噪,全称为粉红噪声、白色噪声,是声学测试里常用到的概念,生活中电台搜不到信号时听到的就是白噪,瀑布水声就是一种粉噪。原创 2022-03-14 19:25:37 · 9049 阅读 · 0 评论 -
压缩算法之霍夫曼编码浅析与实现
霍夫曼编码,属于熵编码的范畴,常用于各种信息压缩场合,如图像、视频、音频压缩领域。常与之对比的是算术编码,基本思想是一致的。霍夫曼本质是算术编码的一种特例。原创 2022-02-15 20:30:55 · 1309 阅读 · 0 评论 -
压缩算法之算术编码浅析与实现
算术编码,属于熵编码的范畴,常用于各种信息压缩场合,如图像、视频、音频压缩领域。基本原理:出现频率高的信息,分配少的比特,频率低的信息则分配多的比特。步骤过程简单来讲:将一串信息压缩到`[0, 1]`区间的一个浮点值。原创 2022-02-15 20:08:34 · 2253 阅读 · 0 评论 -
语音处理:音频信号短时平稳性分析
音频信号中,许多特征变换如短时傅里叶变换,都要求一个前提:语音信号短时平稳性。那么语音信号短时稳定性这样一个假设,该如何直观理解呢?原创 2022-01-27 14:19:03 · 4995 阅读 · 0 评论 -
语音处理:霍夫曼编码算法原理分析
无损编码中常见的为熵编码,主要分为霍夫曼编码和算术编码。霍夫曼编码是无损编解码中常用的压缩算法,如果没有压缩算法,一张未经压缩的2M图片,同样内存可以放下70万字的鸿篇巨著红楼梦。霍夫曼编码虽无法达到算术编码逼近信息熵极限的压缩效率,但由于算法简单、实现优美且可以避免大量算术编码的专利封锁,应用十分广泛,如mp3、aac、jpeg等均采用了此算法。原创 2022-01-11 19:29:19 · 1291 阅读 · 0 评论 -
语音处理:Python实现音频文件声道分离批量处理
在语音处理任务中,有时需要对立体声或多声道音频文件,批量处理成单声道文件,然后送入算法模型进行处理。这里,提供一个Python脚本实现批量分离,提高处理效率。原创 2021-12-31 14:27:20 · 6561 阅读 · 4 评论 -
语音处理:PCM文件中采样值到dB分贝的转换分析
语音处理:PCM文件中采样值到dB分贝的转换分析问题引入核心公式问题回答举一反三本文小结参考资料问题引入分析音频文件过程中,发现16bit的PCM文件,采样值显示为2900,Audition上分贝却显示为-21dB,为啥?本着知其然,更要知其所以然的原则,进行了一番查阅分析。原来,dB的d即“分”(deci-)指十分之一,B即贝,是贝尔的缩写(bel,纪念发明家亚历山大·格拉汉姆·贝尔)。那为什么好好的线性域不用,要用10倍对数域呢?显而易见的好处是便于表示有小间隔内,数值的量级动态范围大,数值太原创 2021-09-23 20:17:49 · 5552 阅读 · 6 评论 -
语音处理:蓝牙音频编解码器LC3技术文档研读总结
语音处理:蓝牙音频编解码器LC3技术文档研读LC3简要介绍总体流程编码侧框架解码侧框架主要技术模块`SNS``TNS``LTPF``SQ``BE`参考资料LC3简要介绍Low Complexity Communication Codec(LC3)是一种高效的蓝牙®在LE音频配置文件使用音频编解码器。它是个频域编码器,能够以各种比特率编码语音和音乐,并且可以合并到任何蓝牙音频配置文件中。重点特性:低复杂度、低功耗基于块的变换音频编解码器提供了广泛的可用比特率支持10 ms和7.5 ms的帧间原创 2021-05-25 15:45:54 · 7660 阅读 · 3 评论 -
语音处理:常用术语及缩写整理(持续更新)
语音处理:常用术语及英文缩写整理编解码术语整理通用编解码待处理参考资料编解码术语整理通用简称全称中文解释备注TTSText To Speech文本合成语音将一段自然语言文本转化为语音形式,与声码器相关CELPCode Excited Linear Prediction码激励线性预测LPCLinear Prediction Coefficient/Coding线性预测编码器SBCSubband Coding子带编码断去划分频带,然原创 2021-05-20 09:34:06 · 4181 阅读 · 1 评论 -
语音处理:音频基础知识篇整理(持续更新中)
语音处理:音频基础知识篇整理常见疑问常见疑问为何48KHz称为全带的采样率?因为人耳正常能听到的频率20Hz到20kHz,根据奈奎斯特采样定律,实际频率20k,则采样一定要大于2倍。 所以48K能采样到人耳能听到的所有频率范围信号。人声能发出和听到的频率范围?人发声器官的发声频率80Hz到3400Hz,说话时一般频率为300-3000Hz,所以一般8kHz或16kHz频率就能满足语音通话的需求,也即采样率在16kHz-32kHz。可是要传些如乐器声等非人声信号会有损失,音乐通常要求采样率44.1k原创 2021-05-03 20:57:16 · 1206 阅读 · 0 评论 -
语音处理:Python实现pcm文件声道合并
语音处理:Python实现pcm文件声道合并功能思路实现代码参考资料功能思路功能:合并多个单通道的pcm成一个多通道pcm文件长度短的声道,末尾自动补零,与最长声道长度对齐思路:先了解pcm数据保存格式,见文末参考资料1遍历所有要合并的单声道文件,将每个声道数据追加到列表中同时,保存每个声道的数据长度进入对应列表,单位是Byte根据位深,确定单个声道每块数据的大小,如bit为16位,则一个数据占2个Byte,作为步长在长度列表中找到最大长度的数据,以此作为循环终止条件若某个文件已原创 2021-04-29 20:09:50 · 1520 阅读 · 0 评论 -
语音处理:Python实现wav与pcm文件格式转换
语音处理:Python实现wav与pcm相互转换wav转pcmpcm转wav参考资料wav转pcm思路:利用wav工具包,跳过包头,直接读取裸流bytes数据将裸流数据wb模式按二进制写入pcm文件中import osimport wavedef wav2pcm(input_dir, out_dir) : with open(input_dir, 'rb') as wavfile: ori_data = wavfile.read() # 读出来是裸流bytes数据原创 2021-04-29 19:49:12 · 2237 阅读 · 1 评论 -
语音处理:音频信号采样点白化方法初探
语音处理:音频信号采样点白化方法初探公式效果说明功能实现C代码效果实现Python代码遗留问题参考资料附:C代码在线调试工具公式公式说明如下:Xi表示信号幅值,带尖的Xi表示白化后的值a通常取3Envi指一个滑窗内能量大小和log转换是为了降低计算复杂度,变sqrt为log和幂运算效果说明效果类似滑动平均将能量曲线变平坦,拉平异常信号尖峰功能实现C代码利用以下代码实现对应公式,将处理后的数据导入Python进行折线绘制,观察效果。#include <stdio原创 2021-04-29 10:40:30 · 943 阅读 · 4 评论
分享