Android学习趋势：讲一下音视频热点知识

最新推荐文章于 2024-05-16 20:42:16 发布

2401_83703893

最新推荐文章于 2024-05-16 20:42:16 发布

阅读量1k

点赞数 11

分类专栏：程序员文章标签： android 学习音视频

本文链接：https://blog.csdn.net/2401_83703893/article/details/137376733

版权

程序员专栏收录该内容

452 篇文章 0 订阅

订阅专栏

22,050 Hz - 无线电广播所用采样率
32,000 Hz - miniDV数字视频camcorder、DAT（LP mode）所用采样率
44,100 Hz - 音频CD,也常用于MPEG-1音频（VCD, SVCD, MP3）所用采样率
47,250 Hz - Nippon Columbia（Denon）开发的世界上第一个商用PCM录音机所用采样率
48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率
50,000 Hz - 二十世纪七十年代后期出现的3M和Soundstream开发的第一款商用数字录音机所用采样率
50,400 Hz - 三菱X-80数字录音机所用所用采样率
96,000或者192,000 Hz - DVD-Audio、一些LPCM DVD音轨、Blu-ray Disc（蓝光光盘）音轨、和HD-DVD（高清晰度DVD）音轨所用所用采样率
2.8224 MHz - SACD、索尼和飞利浦联合开发的称为Direct Stream Digital的1位sigma-delta modulation过程所用采样率。

如上图所示就是一个采样的过程，将模拟音频在连续的时间域上，切割成不连续的时间域的信号过程，即是对x轴的操作。那么有x轴就有y轴，实际上对y轴的操作就是量化。

量化

量化是什么？就是要将上面分割的信息用具体的数据来进行表示，用形象的话来说，就是给每个x时间轴，对应其y轴的变化数值。那么我们要表示一段声音的具体值，肯定就需要先分配一个可变化区间(这个区间就叫做量化格式)，二进制中的１个单位就是一个比特，通常有８比特，16比特，32比特。

这里还需引入分贝(单位db)的概念：是描述声音大小的单位，人耳承受的dB范围是：0～90dB，0dB是人耳能听到的最微弱的的声音，在90dB环境中听力会受到严重影响。经过研究，1个比特可以大约记录6分贝的声音，那么我可以得出下图的数据

| 单位 | 范围 | dB |

| — | — | — |

| 8比特 | 0～2^8-1 <=> 0～255 | 0～48 |

| 16比特 | 0～2^16-1 <=> 0～65535 | 0～96 |

| 32比特 | 0～2^32 -1 <=> 0～4294967295 | 0～192 |

由上可知，一般我们使用16比特，因为其有0～65535中变化，而且刚好符合人对声音大小的范围，而8比特处理音频，只有0～255中变化，变化不能够被很精细的记录下来，那为什么不使用32比特呢？这是因为32位太消耗存储了，当然如果想使音频更加精细，也是可以使用32比特的。

由于量化是建立在采样的基础上的，所有一个量化就对应一个采样，那么我们怎么存储呢？这就会涉及到下面的编码了。

声道

什么是声道呢？声道就是声源，意思就是声音的来源，常见的有Mono和Stereo。

Mono 单声道，单个声源，很多地方已被Stereo取代
Stereo 立体声，2个及以上多个声源

当我们站在不同位置听单声道时，它呈现的效果是不一样的，而立体声则不然，在不同方向仍可保持自然与悦耳，现在CD一般都是双声道立体声，那声道数就是2个。

音频编码

所谓编码，就是按照一定的格式记录采样和量化后的数字数据，比如顺序存储或压缩存储空间了。从宏观上可以分成两类：压缩编码和非压缩编码。

一个存储的格式有很多种，通常音频裸数据即是我们所说的PCM，也叫脉冲编码调制（英语：Pulse-code modulation，缩写：PCM）是一种模拟信号的数字化方法，它是一种非压缩编码格式。

通常描述一段PCM数据需要以下几个概念:

量化格式 - SampleFormat，默认16比特
采样率 - SampleRate，默认44.1KHz
声道数 - Channel ，默认2个

一般我们使用码率来描述音频，即是1秒内吞吐量，单位bps ：

码率 = 采样率 * 量化格式 * 声道数

如上，我们就可以得出：码率 = 44100 * 16 * 2 = 1411200 bps = 1378.125 kbps

还可以得出1分钟数据大小：1378.125 * 60 / 8 / 1024 = 10.1M

下图是我从一个mp3格式上获取的基本信息，可以看到量化格式、采样率和声道数都是一样的，但是它的码率却是 320kbps，这与我们上面计算公式得出的结论不一致呀？这就是涉及到压缩编码格式了。

Duration: 00:00:39.99, start: 0.011995, bitrate: 320 kb/s

Stream #0:0: Audio: mp3, 44100 Hz, stereo, s16p, 320 kb/s

压缩编码就是对数据进行压缩，压缩编码的原理实际上是压缩掉冗余信号，冗余信号是指不能被人耳感知到的信号，包含人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号等，一般压缩分为两种：

有损压缩，数据经过压缩后，信息不受损失，还能完全恢复到压缩前的原样
无损压缩，经过此方法压缩、解压的数据会与原始数据不同但是非常接近

在音乐应用中，我们经常看到“无损音乐”，如果你发现它是mp3格式的，那么它一定是有损压缩，也就是我们所说的假无损。常见的有损压缩如下：

MP2
MP3
AAC
WMA
ADPCM
ATRAC
Dolby AC-3
Musepack
Ogg Vorbis
Opus
LDAC

视频

说完音频，我们来说说视频，首先得说说视频是什么？我们都知道视频是由一帧一帧联系图像构成的，所以再介绍视频之前，先得了解一下什么是图像？

图像

我们从小学习物理知识就知道，通过三菱镜就可以将光色散成不同的颜色，经过进一步研究发现，只有红®、绿(G)、蓝(B)不能被分解，所以它们被称为光的三原色。

一般我们买手机的时候会参考它的分辨率，当然是分辨率越大越好，因为越大越清晰，更接近事物的原始样貌，那这是为什么呢？

其实为了让人能够在手机上感知图像，也采用了这样的RGB模式。以“1080x1920”为例，那就是每一个横向就有1080个像素点，纵向有1920个像素点，那总共就有1080x1920=2073600个像素。每一个像素又包含了红®、绿(G)、蓝(B)三个子像素，这样每个像素就可以有自己的全部颜色呈现。

图像表示

我们知道红®、绿(G)、蓝(B)都可以使用00～FF或者0～255表示，由上面我们知道8比特刚好可以表示0～255，一个像素又包含了红®、绿(G)、蓝(B)三个子像素，那一个像素至少需要24位，我们一般还要给颜色加上一个不透明度(A)，所以一个像素其实是32位，这种表示方式就是我们常用的RGBA_8888，那如果一张图片要在上面分辨率的手机上全屏展示出来需要多大的空间呢？

108019204 = 8294400b = 8100kb = 7.91Mb

这也是位图（bitmap）在内存中所占用的大小，每一张图像的裸数据都是很大的，所以在手机上如果直接加载bitmap的话，很快就会内存溢出。所以如果让图像直接在网络上行走的话肯定是不行的，一般都会进行一个压缩，常见的压缩格式有：

BMP - 无损压缩
PNG - 无损压缩
JPEG - 有损压缩

这是就是为什么在制作小图（比如icon）的时候使用png格式，而大图采用jpeg的原因，小图经过无损压缩放大之后不让其太过模糊，大图保证其能够清晰即可。

视频表示

视频的裸数据我们一般使用YUV来进行表示，YUV也是一种颜色编码方式，为什么不使用RGB呢？与RGB视频信号传输相比，它最大的优点在于只需要占用极少的频宽（RGB要求三个独立的视频信号同时传输）

“Y”表示明亮度（Luminance、Luma），也称灰阶值；“U”和“V”则是色度，它们的作用是描述影像的色彩及饱和度，用于指定像素的颜色。如果忽略掉UV，那就是只剩下灰(Y)，那就跟以前黑白电视机信号一样了，所以YUV的发明了是为了从黑白电视过渡彩色电视而发明的。

UV又由Cb和Cr来描述，Cb反映的则是RGB输入信号蓝色部分与RGB信号亮度值之间的差异，而Cr反映了RGB输入信号红色部分与RGB信号亮度值之间的差异。UV信号告诉了显示器使得某个颜色亮度依某个基准偏移， UV的值越高，代表该像素会有更饱和的颜色。

为节省带宽起见，大多数YUV格式平均使用的每像素位数都少于24位。主要的抽样（subsample）格式有YCbCr 4:2:0、YCbCr 4:2:2、YCbCr 4:1:1和YCbCr 4:4:4。YUV的表示法称为A:B:C表示法：

4:4:4表示完全取样，与RGB类似
4:2:2表示2:1的水平取样，垂直完全采样。
4:2:0表示2:1的水平取样，垂直2：1采样。
4:1:1表示4:1的水平取样，垂直完全采样。

我们再对1080x1920手机上展示视频一帧的数据量大小如下：

| YUV格式 | 大小（1080x1920分辨率） |

| — | — |

| 444 | 1080* 1920* 3=6220800b = 6075 kb = 5.93Mb |

| 422 | 1080* 1920* (1+0.5+0.5) = 4147200 b = 4050 kb = 3.96Mb |

| 420 | 1080* 1920* (1+0.5+0) = 3110400 b = 3037.5 kb = 2.97Mb |

| 411 | 1080* 1920* (1+0.25+0.25) = 3110400 b = 3037.5 kb = 2.97Mb |

从上图中我们可以看到，如果使用YUV420一帧会比直接使用RGB少了近3M，这也就是为什么使用YUV而不是用RGB的主要原因。

需要注意点是一般视频都是使用的YUV4:2:0，YUV4:2:0并不是说只有U（即Cb）, V（即Cr）一定为0，而是指U：V互相援引，时见时隐，也就是说对于每一个行，只有一个U或者V分量，如果一行是4:2:0的话，下一行就是4:0:2，再下一行是4:2:0…以此类推。

怎么让YUV转化成RGB数据在手机上呈现呢？这就需要一个转化公式了

到此我们就知道视频是怎么回事了，视频的是由一帧一帧图像组成，一帧图像又是由YUV裸数据组成，而YUV裸数据是可以与RGB互相转化的，最终呈现在手机上的是转化后的RGB。

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Android工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则近万的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Android移动开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Android开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

如果你觉得这些内容对你有帮助，可以扫码获取！！（备注：Android）

资源分享

最新大厂面试专题

这个题库内容是比较多的，除了一些流行的热门技术面试题，如Kotlin，数据库，Java虚拟机面试题，数组，Framework ，混合跨平台开发，等

对应导图的Android高级工程师进阶系统学习视频
最近热门的，NDK，热修复，MVVM，源码等一系列系统学习视频都有！

《Android学习笔记总结+移动架构视频+大厂面试真题+项目实战源码》，点击传送门即可获取！

面试专题**

这个题库内容是比较多的，除了一些流行的热门技术面试题，如Kotlin，数据库，Java虚拟机面试题，数组，Framework ，混合跨平台开发，等

[外链图片转存中…(img-zZtcPzCG-1712218095962)]

对应导图的Android高级工程师进阶系统学习视频
最近热门的，NDK，热修复，MVVM，源码等一系列系统学习视频都有！

[外链图片转存中…(img-1SLBUuu9-1712218095962)]

《Android学习笔记总结+移动架构视频+大厂面试真题+项目实战源码》，点击传送门即可获取！

2401_83703893

关注

11
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Android学习趋势：讲一下音视频热点知识

22,050 Hz - 无线电广播所用采样率32,000 Hz - miniDV数字视频camcorder、DAT（LP mode）所用采样率44,100 Hz - 音频CD,也常用于MPEG-1音频（VCD, SVCD, MP3）所用采样率47,250 Hz - Nippon Columbia（Denon）开发的世界上第一个商用PCM录音机所用采样率48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率。
复制链接

扫一扫