音频压缩

最新推荐文章于 2024-08-12 11:56:22 发布

一叶知秋@qqy

最新推荐文章于 2024-08-12 11:56:22 发布

阅读量1.7k

点赞数 1

分类专栏： ffmpeg笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41004932/article/details/117090439

版权

ffmpeg笔记专栏收录该内容

37 篇文章 16 订阅

订阅专栏

本文深入探讨音频压缩技术，包括有损和无损压缩，重点介绍了AAC和OPUS两种编码器。AAC是广泛应用的音频编码格式，适用于iOS、Android等平台，而OPUS则在在线教育和音视频会议中表现出色，因其低延迟和高压缩率。此外，文章还提到了音频编码的参数如采样率、频域遮蔽效应、时域遮蔽效应以及编码格式如ADIF和ADTS。

摘要由CSDN通过智能技术生成

音频压缩

消除冗余信息 - 20HZ以下，2万HZ以上的数据人不敏感，属于无效 有损压缩

无损压缩

音频有损压缩

音频冗余信息

音频压缩技术是在保证信号在听觉方面不失真的前提下，对音频数据信号进行尽可能大的压缩。

压缩的主要方法是去除采集到的音频荣冗余信息。所谓冗余信息包括人耳听觉范围外20HZ~2万HZ的音频信号以及被掩盖掉的音频信号。

信号的遮蔽可以分为频域遮蔽和时域遮蔽

在这里插入图片描述

频域遮蔽效应即简单来说就是在频率相近的情况下，强度大的遮蔽强度小的，但是无法遮蔽频率不相近的，哪怕是强度明显大于其强度

在这里插入图片描述

时域遮蔽效应，即强度大的会遮蔽前后一定时间内其他小强度的声音。

音频无损压缩

熵编码-代指无损编码

哈夫曼编码->用很小的一串0和1的二进制数代替一个特别长的字符，用小的代替长的，频率越高的编码越小，频率越低的编码越长

算术编码->通过二进制的小数进行编码

香农编码->算术编码就是在香农编码的基础上改进而来的

在这里插入图片描述

在这里插入图片描述

时域转频域变换：将时域一块长时间的数据交给模块转换为频域，转换成多种频段的数据，便于拆出哪些是需要的数据，哪些是不需要的。

心理声学模型：去掉20HZ~2万HZ之外的，以及一些被遮蔽的声音

常见的音频编码器

常见的音频编码器包括OPUS、AAC、Ogg、Speex、iLBC、AMR、G.711等

OPUS：在线教育、音视频会议常用，延迟小压缩率高等优点，近些年比较突出。OPUS是较新的音编码器，WebRTC中默认使用。

AAC：目前应用最广泛的编解码器，用于IOS、安卓系统、嵌入式设备等都包含了硬件的AAC编解码，ffmpeg中也有很多的AAC编解码器。AAC在直播系统中应用广泛。

Ogg：收费，应用不是太广泛

Speex：在OPUS和AAC出现前使用广泛，有一个很好的优点，包括了回音消除的功能。

G.711：一般用于固话，窄带音频，编解码后的数据非常小，但是声音损耗严重

网上评测结果：OPUS > AAC > Ogg

在这里插入图片描述

纵轴是质量，横轴是码流大小

在这里插入图片描述

纵轴是延迟性，横轴是码率

AAC编码器介绍

AAC介绍

AAC(Advanced Audio Coding)由Fraunhofer IIS、杜比实验室、AT&T、Sony等公司共同研发，目的是取代MP3格式。

最开始是基于MPEG-2的音频编码技术，MPEG-4标准出现后，AAC重新集成了其特性，加入了SBR和PS技术。

目前常用的规格有AAC LC、AAC HE V1、AAC HE V2

在这里插入图片描述

图中蓝色的AAV HE V2 是误笔，实际上是AAC HE V2

AAC 规格描述

AAC LC：(Low Complexity)低复杂度规格，码流是128k，音质好。

AAC HE ：等于AAC LC + SBR(Spectral Band Replication)。其核心思想是按频谱分开保存，低频编码保存主要成分，高频单独放大编码保存音质。码流在64k左右。

AAC HE V2：等于AAC LC + SBR + PS(Parametric Stereo)。其核心思想是双声道中的声音存在某种相似性，只需存储一个声道的全部信息，然后花很少的字节用参数描述另一个声道和她不同的地方。

AAC格式

ADIF(Audio Data Interchange Format)

这种格式的特征是可以确定的找到这个音频数据的开始，只能从头开始解码，不能在音频数据流中开始。这种格式常用在磁盘文件中。

相当于AAC数据加了一个头，解码AAC文件时先对头进行解析，拿到所有的参数信息，通过参数进行解码

ADTS(Transport Stream)

这种流的格式特征是每一帧都有一个同步字，所以可以在音频流的任何位置开始解码。它类似于数据流格式。

二者最本质的区别在于，ADIF只可以从头播放，如果播放前进行拖拽进度，或者中间进行拖拽进度，由于找不到头信息，会无法播放，但是ADTS因为每一帧都有同步字，所以拖拽后可以向后寻找头信息进行播放。

ADTS结构

在这里插入图片描述

Audio Object Types

1:AAC Main

2:AAC LC

…

5:SBR

…

29:PS

…

序号从1开始，真正编码中要减一

所以从数据中读出来数字1时要加一，即取2，也就是AAC LC，这是因为解析的数据是经过处理的，而在处理时做了减一操作，所以要在此进行复原。

Sampling Frequecy Index

0：96000 Hz
1：88200Hz
2：64000Hz
3：48000Hz
4：44100Hz
5：32000Hz
6：24000Hz
7：22050Hz
8：16000Hz
9：12000Hz
10：11025Hz
11：8000Hz
12：7350Hz
13：Reserved
14：ReservedHz
15：frequency is written explictly

工具解析网址：http://www.p23.nl/projects/aac-header/

在这里插入图片描述

这是一个在线解析ADTS头的网址，输入头进行解析。

在实际使用中ADTS这类的头在ffmpeg中有相应的API使用，也可以ffmpeg全线接管

通过ffmpeg命令生成AAC文件

如下命令：

ffmpeg -i xxx.mp4

-vn -c:a libfdk_aac

-ar 44100 -channels 2 -profile:a aac_he_v2 3.aac

参数：

-i-> 输入多媒体文件，一定要包含音频数据,因为要获取aac，并重新编码

-vn-> v代表vedio，n代表no，-vn过滤视频

-c->代表codec，即编码，a代表audio即使用音频编码器指定音频编码器libfdk_aac，libfdk_aac是当前众多aac编解码器中性能最好的

-ar->代表代表音频采样率

-channels->代表双声道，即左右声道

-profile->对libfdk_aac编解码器设置一些参数，在profile中指定a即对音频的设置，设置为aac_he_v2，也可以直接设为aac_he_v1、aac

最后输出aac文件名xxx.aac

ffmpeg的音频编解码器参数参考网址：

http://ffmpeg.org/ffmpeg-codecs.html#libfdk_005faac

一叶知秋@qqy

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
音频压缩

音频压缩消除冗余信息 - 20HZ以下，2万HZ以上的数据人不敏感，属于无效有损压缩无损压缩音频有损压缩音频冗余信息音频压缩技术是在保证信号在听觉方面不失真的前提下，对音频数据信号进行尽可能大的压缩。压缩的主要方法是去除采集到的音频荣冗余信息。所谓冗余信息包括人耳听觉范围外20HZ~2万HZ的音频信号以及被掩盖掉的音频信号。信号的遮蔽可以分为频域遮蔽和时域遮蔽频域遮蔽效应即简单来说就是在频率相近的情况下，强度大的遮蔽强度小的，但是无法遮蔽频率不相近的，哪怕是强度明显大于其强度时域
复制链接

扫一扫

专栏目录

一叶知秋@qqy CSDN认证博客专家 CSDN认证企业博客

码龄7年

150: 原创

4万+: 周排名

10万+: 总排名

52万+: 访问

: 等级

2505: 积分

130: 粉丝

276: 获赞

94: 评论

1239: 收藏

私信

关注

热门文章

分类专栏

面经 1篇
云原生 12篇
GIT 4篇
GO技术预研 22篇
Docker 2篇
ffmpeg-mac 27篇
ffmpeg笔记 37篇
嵌入式 4篇
python 20篇
C语言基础 24篇

最新评论

golang 通过socks5代理连接mysql(gorm)
414a: 根据文章代码用socks5通信不了mysql啊 INFO[0000] InitDBProxyUrl get Dbsocks:127.0.0.1:7890 [mysql] 2024/09/10 11:07:39 connection.go:49: unexpected EOF [mysql] 2024/09/10 11:07:40 connection.go:49: unexpected EOF [mysql] 2024/09/10 11:07:40 connection.go:49: unexpected EOF 2024/09/10 11:07:40 /Users/414a/data/code/go/src/fyne/MysqlProxy/main.go:71 [error] failed to initialize database, got error driver: bad connection 2024/09/10 11:07:40 driver: bad connection
FFmpeg安装与配置(windows与mac)
炎黄子孙__: 我看了一下，博主居然选择自己编译。。。C++的东西自己编译容易出问题。。有别人编译好的版本干嘛不用？ windows别人编译好的版本可以直接从这里下载：https://ffmpeg.org/download.html#build-windows 把软件的bin目录添加到环境变量里就可以使用了
PVE虚拟机篇02-PVE虚拟机安装
2301_76382809: 我进去以后，回不到主屏了怎么办？
keil查看rtx rtos堆栈溢出
2301_78297206: 在线程中定义数组，导致栈溢出的话，是要声明一个全局变量吗？
FFmpeg安装与配置(windows与mac)
rene_rabbit: ……我的意思是，都用linux虚拟机装了也能叫windows安装吗。他标题写的可是windows

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。