音视频专有名词总结

最新推荐文章于 2024-12-13 23:15:33 发布

原创最新推荐文章于 2024-12-13 23:15:33 发布 · 1.2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#音视频 #流媒体

音视频开发杂项专栏收录该内容

15 篇文章

订阅专栏

音视频专有名词总结

版本说明

版本	作者	日期	备注
0.1	loon	2019.1.29	初稿

一、初衷

目前在开发IPC（IP Camera），所以对于音视频方面的知识必须有一定程度的了解，否则在程序开发以及一些需求文档阅读时将会非常困难。

二、常用音视频名词

注：以下大多来自百度百科，主要是为了统一总结

1、D1、D2、D3、D4、D5

D1是数字电视系统显示格式的标准，共分为5种规格，其中D1 和D2标准是我们一般模拟电视的最高标准。

D1：480i格式（525i）：720×480（水平480线，隔行扫描），和NTSC模拟电视清晰度相同，行频为15.25kHz，相当于我们所说的4CIF（704×576）

D2：480P格式（525p）：720×480（水平480线，逐行扫描），较D1隔行扫描要清晰不少，和逐行扫描DVD规格相同，行频为31.5kHz

D3：1080i格式（1125i）：1920×1080（水平1080线，隔行扫描），高清放松采用最多的一种分辨率，分辨率为1920×1080i/60Hz，行频为33.75kHz

D4：720p 格式（750p）：1280×720（水平720线，逐行扫描），虽然分辨率较D3要低，但是因为逐行扫描，市面上更多人感觉相对于 1080I（实际逐次540线）视觉效果更加清晰。不过个人感觉来说，在最大分辨率达到1920×1080的情况下，D3要比D4感觉更加清晰，尤其是文字表现力上，分辨率为1280×720p/60Hz，行频为45kHz

D5：1080p格式（1125p）：1920×1080（水平1080线，逐行扫描），目前民用高清视频的最高标准，分辨率为1920×1080P/60Hz,行频为67.5KHZ。

2、帧、帧数、fps

帧——就是影像动画中最小单位的单幅影像画面，相当于电影胶片上的每一格镜头。一帧就是一副静止的画面，连续的帧就形成动画，如电视图象等。

我们通常说帧数，简单地说，就是在1秒钟时间里传输的图片的帧数，也可以理解为图形处理器每秒钟能够刷新几次，通常用fps表示。每一帧都是静止的图象，快速连续地显示帧便形成了运动的假象。高的帧率可以得到更流畅、更逼真的动画。每秒钟帧数 (fps) 愈多，所显示的动作就会愈流畅。

3、kbps、码率、Mbps、Gbps

kbps千比特每秒，又称千比特率，指的是数字信号的传输速率，也就是每秒钟传送多少个千位的信息（k表示千，kb表示的是多少千个位）；kbps也可以表示网络的传输速度，为了在直观上显得网络的传输速度较快，一般公司都使用kb（千位）来表示。如果是大写B的kBps，则表示每秒传送多少千字节。1kByte/s=8kbit/s(一般简写为1kB/s=8kb/s)。

码率我们用的单位是kbps即千位每秒。

通俗一点的理解就是取样率，单位时间内取样率越大，精度就越高，处理出来的文件就越接近原始文件，但是文件体积与取样率是成正比的，所以几乎所有的编码格式重视的都是如何用最低的码率达到最少的失真，围绕这个核心衍生出来的cbr（固定码率）与vbr（可变码率），都是在这方面做的文章，不过事情总不是绝对的，从音频方面来说，码率越高，被压缩的比例越小，音质损失越小，与音源的音质越接近。

类似的单位还有兆位每秒（又称兆比特每秒，megabit per second, Mbps），Gbps（俗称千兆）。

4、I帧、P帧、B帧

I帧又称帧内编码帧，是一种自带全部信息的独立帧，无需参考其他图像便可独立进行解码，可以简单理解为一张静态画面。视频序列中的第一个帧始终都是I帧，因为它是关键帧。

P帧又称帧间预测编码帧，需要参考前面的I帧才能进行编码。表示的是当前帧画面与前一帧（前一帧可能是I帧也可能是P帧）的差别。解码时需要用之前缓存的画面叠加上本帧定义的差别，生成最终画面。与I帧相比，P帧通常占用更少的数据位，但不足是，由于P帧对前面的P和I参考帧有着复杂的依耐性，因此对传输错误非常敏感。

B帧又称双向预测编码帧，也就是B帧记录的是本帧与前后帧的差别。也就是说要解码B帧，不仅要取得之前的缓存画面，还要解码之后的画面，通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高，但是对解码性能要求较高。

I帧只需考虑本帧；P帧记录的是与前一帧的差别；B帧记录的是前一帧及后一帧的差别,能节约更多的空间,视频文件小了,但相对来说解码的时候就比较麻烦。因为在解码时,不仅要用之前缓存的画面,而且要知道下一个I或者P的画面,对于不支持B帧解码的播放器容易卡顿。

视频监控系统中预览的视频画面是实时的，对画面的流畅性要求较高。采用I帧、P帧进行视频传输可以提高网络的适应能力，且能降低解码成本所以现阶段的视频解码都只采用I帧和P帧进行传输。

5、720P、1080P、CIF、QCIF

720P是美国电影电视工程师协会（SMPTE）制定的高等级高清数字电视的格式标准，有效显示格式为：1280×720.SMPTE（美国电影电视工程协会）将数字高清信号数字电视扫描线的不同分为1080P、1080I、720P(i是interlace,隔行的意思，p是Progressive,逐行的意思)。720P是一种在逐行扫描下达到1280×720的分辨率的显示格式。是数字电影成像技术和计算机技术的融合。

1080P是两百万像素的，分辨率达到1920*1080

720P是一百万像素的，分辨率达到960*720/1280*720

D1的分辨率达到704*576

CIF的分辨率达到352*288

QCIF的分辨率达到176*144

6、VGA

VGA(Video Graphics Array)是IBM在1987年随PS/2机一起推出的一种视频传输标准，具有分辨率高、显示速率快、颜色丰富等优点，在彩色显示器领域得到了广泛的应用。不支持热插拔，不支持音频传输。

7、RTSP

RTSP（Real Time Streaming Protocol），RFC2326，实时流传输协议，是TCP/IP协议体系中的一个应用层协议，由哥伦比亚大学、网景和RealNetworks公司提交的IETF RFC标准。该协议定义了一对多应用程序如何有效地通过IP网络传送多媒体数据。RTSP在体系结构上位于RTP和RTCP之上，它使用TCP或UDP完成数据传输。HTTP与RTSP相比，HTTP请求由客户机发出，服务器作出响应；使用RTSP时，客户机和服务器都可以发出请求，即RTSP可以是双向的。RTSP是用来控制声音或影像的多媒体串流协议，并允许同时多个串流需求控制，传输时所用的网络通讯协定并不在其定义的范围内，服务器端可以自行选择使用TCP或UDP来传送串流内容，它的语法和运作跟HTTP 1.1类似，但并不特别强调时间同步，所以比较能容忍网络延迟。而前面提到的允许同时多个串流需求控制（Multicast），除了可以降低服务器端的网络用量，更进而支持多方视讯会议（Video Conference）。因为与HTTP1.1的运作方式相似，所以代理服务器〈Proxy〉的快取功能〈Cache〉也同样适用于RTSP，并因RTSP具有重新导向功能，可视实际负载情况来转换提供服务的服务器，以避免过大的负载集中于同一服务器而造成延迟。

8、G.711

G.711是一种由国际电信联盟（ITU-T）制定的音频编码方式，又称为ITU-T G.711。G.711 标准下主要有两种压缩算法。一种是**µ-law algorithm** （又称often u-law, ulaw, mu-law），主要运用于北美和日本；另一种是A-law algorithm，主要运用于欧洲和世界其他地区。其中，后者是特别设计用来方便计算机处理的。

9、IPC、NVR、DVR

NVR是(Network Video Recorder即网络硬盘录像机)的缩写。NVR最主要的功能是通过网络接收IPC（网络摄像机）设备传输的数字视频码流，并进行存储、管理，从而实现网络化带来的分布式架构优势。简单来说，通过Nvr，可以同时观看、浏览、回放、管理、存储多个网络摄像机。摆脱了电脑硬件的牵绊，再也不用面临安装软件的繁琐。如果所有摄像机网络化，那么必经之路就是有一个集中管理核心出现。

近几年，随着IP网络的快速发展，视频监控行业也进入了全网络化时代。全网络化时代的视频监控行业正逐步表现出IT行业的特征，作为网络化监控的核心产品NVR(Network Video Recorder即网络视频录像机)，从本质上已经变成了IT产品。NVR最主要的功能是通过网络接收IPC（网络摄像机）、DVS（视频编码器）等设备传输的数字视频码流，并进行存储、管理。

dvr，全称为Digital Video Recorder（硬盘录像机），即数字视频录像机，相对于传统的模拟视频录像机，采用硬盘录像，故常常被称为硬盘录像机，也被称为DVR。它是一套进行图像计算存储处理的计算机系统，具有对图像/语音和动态帧等进行长时间录像、录音、远程监视和控制的功能，DVR集合了录像机、画面分割器、云台镜头控制、报警控制、网络传输等五种功能于一身，用一台设备就能取代模拟监控系统一大堆设备的功能，而且在价格上也逐渐占有优势和人气。

10、ES、PES、PTS、DTS、PS、TS流

https://blog.csdn.net/huangblog/article/details/8740571

**ES–Elementary Streams (原始流）**是直接从编码器出来的数据流，可以是编码过的视频数据流（H.264,MJPEG等），音频数据流（AAC），或其他编码数据流的统称。

PES–Packetized Elementary Streams (分组的ES)，ES形成的分组称为PES分组，是用来传递ES的一种数据结构。PES流是ES流经过PES打包器处理后形成的数据流，在这个过程中完成了将ES流分组、打包、加入包头信息等操作（对ES流的第一次打包）。PES流的基本单位是PES包。PES包由包头和payload组成。

**PTS–PresentationTime Stamp（显示时间标记）**表示显示单元出现在系统目标解码器（H.264、MJPEG等）的时间。

**DTS–Decoding Time Stamp（解码时间标记）**表示将存取单元全部字节从解码缓存器移走的时间。

**PS–Program Stream(节目流)**PS流由PS包组成，而一个PS包又由若干个PES包组成（到这里，ES经过了两层的封装）。PS包的包头中包含了同步信息与时钟恢复信息。

**TS–Transport Stream（传输流）**由定长的TS包组成（188字节），而TS包是对PES包的一个重新封装（到这里，ES也经过了两层的封装）。PES包的包头信息依然存在于TS包中。

11、AAC

AAC（Advanced Audio Coding），中文名：高级音频编码，出现于1997年，基于MPEG-2的音频编码技术。由Fraunhofer IIS、杜比实验室、AT&T、Sony等公司共同开发，目的是取代MP3格式。2000年，MPEG-4标准出现后，AAC重新集成了其特性，加入了SBR技术和PS技术，为了区别于传统的MPEG-2 AAC又称为MPEG-4 AAC。

12、H264、H265

https://blog.csdn.net/fireroll/article/details/77827156

H.264，同时也是MPEG-4第十部分，是由ITU-T视频编码专家组（VCEG）和ISO/IEC动态图像专家组（MPEG）联合组成的联合视频组（JVT，Joint Video Team）提出的高度压缩数字视频编解码器标准。这个标准通常被称之为H.264/AVC（或者AVC/H.264或者H.264/MPEG-4 AVC或MPEG-4/H.264 AVC）而明确的说明它两方面的开发者。

H264标准各主要部分有Access Unit delimiter（访问单元分割符），SEI（附加增强信息），primary coded picture（基本图像编码），Redundant Coded Picture（冗余图像编码）。还有Instantaneous Decoding Refresh（IDR，即时解码刷新）、Hypothetical Reference Decoder（HRD，假想参考解码）、Hypothetical Stream Scheduler（HSS，假想码流调度器）。

H.265是ITU-T VCEG继H.264之后所制定的新的视频编码标准。H.265标准围绕着现有的视频编码标准H.264，保留原来的某些技术，同时对一些相关的技术加以改进。新技术使用先进的技术用以改善码流、编码质量、延时和算法复杂度之间的关系，达到最优化设置。具体的研究内容包括：提高压缩效率、提高鲁棒性和错误恢复能力、减少实时的时延、减少信道获取时间和随机接入时延、降低复杂度等。H.264由于算法优化，可以低于1Mbps的速度实现标清（分辨率在1280P720以下）数字图像传送；H.265则可以实现利用1~2Mbps的传输速度传送720P（分辨率1280720）普通高清音视频传送。

13、IVS

IVS，是基于DSP的单路视频编码器，同时内嵌了智能视觉监控功能，其自动检测、即时报警通告和即时视频确认等功能可以大幅提高安全监控水平，同时基于三维视场检测，能自动区分目标种类、大小、速度、移动方向等特征，具有出色的非平坦地形上的目标检测能力，能可靠的检测遥远距离的目标，采用先进的模式识别技术和特定的行为分析算法，保持高检测率(99.9%)的同时只有很低的误报率*（少于1个/天）*。IVS结合监控摄像机或PTZ球机可对智能视觉分析数据联网进行报警运营，实现“事先预警+事中处置+事后取证”，是“智能视觉+物联网”的真正的物联网。