音频质量评估-1

最新推荐文章于 2024-08-15 09:52:06 发布

叉叉敌

最新推荐文章于 2024-08-15 09:52:06 发布

阅读量4.4k

点赞数 4

文章标签：算法机器学习人工智能 java 深度学习

本文链接：https://blog.csdn.net/weixin_42514606/article/details/113749199

版权

本文介绍了音频质量评估的基本原理，包括音频的数字化过程、关键指标（比特率、响度和强度、采样率）以及编码方式（PCM、DPCM）。讨论了视频编码中的颜色空间和压缩目的，强调了音视频封装格式的重要性。文章还探讨了影响声音质量的因素和评估标准，如MOS、PESQ、POLQA，并提到了WebRTC和testrtc在音视频测试与评估中的应用。

摘要由CSDN通过智能技术生成

原理

音频的原理

把模拟信号转变成数字信号，前者是连续的，后者离散的。因此有DAC和ADC。
需要关注的三个指标，这三个指标决定音频的质量

比特率：表示经过编码(压缩)后的音频数据每秒钟需要用多少个比特来表示，单位常为kbps。 这个数字越大音频质量越好，但是数据文件就越大。
响度和强度：声音的主观属性响度表示的是一个声音听来有多响的程度。响度主要随声音的强度而变化，但也受频率的影响。总的说，中频纯音听来比低频和高频纯音响一些。这个就是振幅。计算方式20lg(amp1/基准振幅)，基准振幅就是在声音最大的时候采用的振幅。
采样和采样率：采样是把连续的时间信号，变成离散的数字信号。采样率是指每秒钟采集多少个样本。采样率越高其质量越好，一般在底层是48k采样率，宽带电话是16k，窄带是8k。

Nyquist采样定律：采样率大于或等于连续信号最高频率分量的2倍时，采样信号可以用来完美重构原始连续信号。

这句话的意思大概就是，比如采样率是16Khz, 那么频率只能达到8kHz；如果是48kHz的采样率，那么频率可以达到24kHz.

开源软件 audacity 的插件就是ny结尾的，里面用lisp语言写的，用于计算一些rms、THD等

编码方式
主流的有2中，PCM和DPCM，

脉冲编码调制 (Pulse Code Modulation)是一种对模拟信号数字化的取样技术，将模拟语音信号变换为数字信号的编码方式，把时间上连续的信号变成时间上离散的信号。把连续的编码成离散的，这里有损失，但是人耳听不出来。
差分脉冲编码调制(Differential Pulse code modulation，DPCM)，是一种对模拟信号的编码模式,与PCM不同每个抽样值不是独立的编码,而是先根据前一个抽样值计算出一个预测值,再取当前抽样值和预测值之差作编码用.此差值称为预测误差.抽样值和预测值非常接近(因为相关性强),预测误差的可能取值范围比抽样值变化范围小.所以可用少几位编码比特来对预测误差编码,从而降低其比特率.这是利用减小冗余度的办法,降低了编码比特率。这个数据是网上找的，总的一句话就是与相等的PCM比较，这种编码只需要25%的比特数，比特率小，文件就小。