音视频处理的一些概念

最新推荐文章于 2024-06-27 15:36:17 发布

不知者不罪

最新推荐文章于 2024-06-27 15:36:17 发布

阅读量1.6w

点赞数 3

分类专栏：音视频处理文章标签：安防监控音视频海思概念

音视频处理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

 
 一、 
 媒体处理平台（MPP） 
    hi3531/3532 编码 

 
 二、 
 视频缓存池 
 ：向媒体业务提供大块内存管理功能。 

 
 三、 
 视频编码模块VENC 
 支持以下协议编码：（1）H.264 （2）JPEG （3）MJPEG （4）MPEG-4 

 
 四、 
 编码模块的输入源包括三类： 

 
      （1） 
      
  用户态读取图像文件向编码模块发送数据

 
      （2）     视频输入（VIU）模块采集的图像经过视频处理子系统（VPSS）发送到编码模块 

 
      （3）     视频输入（VIU）模块采集的图像直接发送到编码模块 

 
 五、视频前处理单元VPSS（Video Process Sub-System） 

 
      （1）     支持对一幅输入图像进行统一处理，然后进行缩放输出。 

 
      （2）     一进五出（0~4） 

 
      （3）    
   一幅图像最多输出4种不同分辨率的预处理后图像。 

 
       0:主码流    1：辅码流   2：JPEG   3：预览 

 
 六、  典型的编码流程包括： 

 
      （1）   输入图像的接收 

 
      （2）   图像内容的遮挡和覆盖 

 
      （3）   图像的编码 

 
      （4）   码流的输入 

 
 七、编码通道： 

 
 完成图像转化为码流的功能，具体由码率控制器和编码器协同完成。

 
       （1） 
 码率控制器 
 ：提供了对编码参数的控制和调整，从而对输出码率进行控制。 

 
       （2）  
 编码器 
 ：只完成编码功能。 

 
 八、编码通道组： 

 
         指芯片启动一次，能够同时处理的编码通道的集合。 

 
           
 Hi3531/Hi3532编码通道组支持启动一次，仅编码一路主码流通道。 

 
 九、 
 系统绑定 
 ： 

 
        通过数据接收者绑定数据源来建立两者之间的关联关系。绑定后，数据源生成的数据将自动发给接收者。 

 
 十、一些名词简写： 

 
        VI：视频输入                                     VO：视频输出 

 
        VPSS：视频处理                                 VDA：视频侦测分析 

 
        VENC：视频编码                                 AI：音频输入 

 
        VDEC：视频解码                                 AO：音频输出 

 
 十一、Hi3531解码器提供 
 两种码流发送方式： 

 
    
    （1）     流式发送               （2）     按帧发送 

 
 十二、 
 Hi3531解码器图像传输方式： 

 
       （1）   普通传输：完全按照H.264协议输出图像              速度慢 

 
       （2）   直接输出：收到下一帧码流，输出当前帧图像。         次之 

 
       （3）   按帧输出：收到当前帧码流，输出当前帧图像。        速度快  

 
 十三、 VI模块（视频输入） 

 
       （1）  实现的功能：将芯片外的视频数据，通过接口接收，存入到指定的内存区域。 
 实现一路原始视频图像输入，两路视频图像输出功能 
 。 

 
       （2）  Hi3531芯片有4个BT.1120接口，每个BT.1120接口依次对应两个VI设备。 

 
       （3）  Hi3531芯片有8个（4*2）VI设备端口（Dev0~Dev7），32个VI 
 物理通道 
 ，2个级联扩展通道。 

 
       （4）  8个VI 
 设备端口 
 均支持2路D1复合模式，以及1路720P interleave模式。 

 
 十四、音频模块包括： 

 
         音频输入、音频输出、音频编码、音频解码 

 
 ------------------------------------------------------------------------------------------------ 

 
 一、基本概念 

 
 1）ES   

 
     
 ES--Elementary  Streams  ( 
 原始流 
 ) 
 是直接从编码器出来的数据流，可以是编码过的视频数据流（H.264,MJPEG等），音频数据流（AAC），或其他编码数据流的统称。 
 ES流经过PES打包器之后，被转换成PES包 
 。 

 
     ES是 
 只包含一种内容的数据流 
 ，如只含视频或只含音频等，打包之后的PES也是只含一种性质的ES,如只含视频ES的PES,只含音频ES的PES等。 
 每个ES都由若干个 
 存取单元（AU） 
 组成 
 ，每个视频AU或音频AU都是由 
 头部和编码数据 
 两部分组成， 
 1个AU相当于编码的1幅视频图像或1个音频帧 
 ，也可以说，每个AU实际上是编码数据流的显示单元，即相当于解码的1幅视频图像或1个音频帧的取样。 

 
 2）PES 

 
     PES--Packetized  Elementary Streams  (分组的ES)， 
 ES形成的分组称为PES分组，是用来传递ES的一种 
 数据结构 
 。PES流是ES流经过PES打包器处理后形成的数据流，在这个过程中完成了将 
 ES流分组、打包、加入包头信息 
 等操作（对ES流的第一次打包）。PES流的基本单位是PES包。PES包由 
 包头和payload组成 
 。 

 
 3）PTS、DTS 

 
 PTS--PresentationTime Stamp（显示时间标记） 
 表示显示单元出现在系统目标解码器（H.264、MJPEG等）的时间。

 
 DTS--Decoding Time Stamp（解码时间标记） 
 表示将存取单元全部字节从解码缓存器移走的时间。

 
    
  PTS/DTS是打在PES包的包头里面的，这两个参数是解决音视频同步显示 
 ，防 
 止解码器输入缓存上溢或下溢的关键。每一个I（关键帧）、P（预测帧）、B（双向预测 帧）帧的包头都有一个PTS和DTS，但PTS与DTS对于B帧不一样，无需标出B帧的DTS，对于I帧和P帧，显示前一定要存储于视频解码器的 
 重新排序缓存器 
 中，经过延迟（重新排序）后再显示，所以一定要分别标明PTS和DTS。 

 
 4）PS 

 
     
 PS--Program Stream(节目流) 
 PS流由PS包组成，而一个PS包又由若干个PES包组成（ 
 到这里，ES经过了两层的封装 
 ）。PS包的包头中包含了同步信息与时钟恢复信息。一个PS包最多可包含具有同一时钟基准的16个视频PES包和32个音频PES包。 

 
 5）TS 

 
 TS--Transport Stream 
 （传输流） 
 由定长的TS包组成（188字节） 
 ，而TS包是对PES包的一个重新封装（到这里，ES也经过了两层的封装）。PES包的包头信息依然存在于TS包中。

 
      
 TS流与PS流的区别 
 在于 
 TS流的包结构是 
 固定长度 
 的,而PS流的包结构是 
 可变长度的 
 。PS包由于长度是变化的,一旦丢失某一PS包的同步信息,接收机就会进入失步状态,从而导致严重的信息丢失事件。而TS码流由于采用了固定长度的包结构,当传输误码破坏了某一TS包的同步信息时,接收机可在固定的位置检测它后面包中的同步信息,从而恢复同步,避免了信息丢失。因此在信道环境较为恶劣、传输误码较高时一般采用TS码流,而在信环境较好、传输误码较低时一般采用PS码流。 

 
 6）TS单一码流、混合码流 

 
 单一性： 
 TS流的基本组成单位是长度为188字节的TS包。

 
 混合性： 
  TS流由多种数据组合而成，一个TS包中的数据可以是视频数据，音频数据，填充数据，PSI/SI表格数据等（唯一的PID对应）。

 
 二、基本流程 

 
 1） 
 A/D转换后，通过MPEG-2压缩编码得到的ES基本流 
 。这个数据流很大，并且只是I，P，B的这些视频帧或音频取样信息。 

 
 2）通过 
 PES 
 打包器，打包并在每个帧中插入 PTS/DTS标志，变成PES。原来是流的格式，现在成了数据包的分割形式。 

 
 3）PES根据需要打包成 
 PS或TS包 
 进行 
 存储（DVD）或传输(DVB) 
 。因每路音/视频只包含一路的编码数据流，所以每路PES也只包含相应的数据流。 

 
 ------------------------------------------------------------------------------------------------ 

 
 8.NALU 

 
       NALU(Network Abstract Layer Unit)： 
 H264标准中的比特流是以NAL为单位,  
 每个NAL单元包含一个RBSP（rawbyte sequence payload， 
 原始字节序列载荷 
 ），NALU的头信息定义了RBSP所属类型。类型一般包括序列参数集（SPS）、图像参数集（PPS）、增强信息（SEI）、条带（Slice）等，其中，SPS和PPS属于参数集，两标准采用参数集机制是为了将一些主要的序列、图像参数（解码图像尺寸、片组数、参考帧数、量化和滤波参数标记等）与其他参数分离，通过 
 解码器先解码出来 
 。此外，为了增强图像的清晰度，AVS-M添加了图像头（Picturehead）信息。读取NALU流程中， 
 每个NALU前有一个起始码0x000001 
 ，为防止内部0x000001序列竞争，H.264编码器在 
 最后一字节前插入一个新的字节——0x03 
 ，所以解码器检测到该序列时，需将0x03删掉，而AVS-M只需识别出起始码0x000001。 

 
 9.主码流与次码流 

 
    
 hi3515中， 
 大小码流使用相同的源图像，大码流直接由源图像编码得到，小码流由源图像缩小后编码得到 , 
 小码流编码图像支持的最大尺寸为 CIF。 

 
      
 主码流用于本地存储，子码流适用于图像在低带宽网络上传输。 

 
 10.ES流、PES流、PS流以及TS流 

 
 ES流 
 （Elementary Stream）由三部分组成：

 
      1）经MPEG-2视频编码器编码后的图像数据流； 

 
      2）经MPEG-2音频编码器编码后的声音数据流； 

 
      3）其他编码数据流； 

 
     
 PES流 
 （Packetized ElementaryStream）：PES流是ES流经过 
 PES打包器 
 处理后形成的数据流，在这个过程中完成了将ES流 
 分组、打包、加入包头信息 
 等操作（对ES流的第一次打包）。PES流的基本单位是PES包。 

 
     
 节目流（Program Stream简称PS）与传输流（Transport Stream简称TS） 
 是数字视频系统中的两类数据码流，由MPEG-2系统层定义， 
 H.264采用与MPEG-2相同的系统层 
 ，因而也采用PS/TS两类码流，TS流与PS流的 
 区别 
 在于TS流的包结构是 
 固定长度 
 的,而PS流的包结构是 
 可变长度 
 的。PS包由于长度是变化的,一旦丢失某一PS包的同步信息,接收机就会进入失步状态,从而导致严重的信息丢失事件。而TS码流由于采用了固定长度的包结构,当传输误码破坏了某一TS包的同步信息时,接收机可在固定的位置检测它后面包中的同步信息,从而恢复同步,避免了信息丢失。因此在信道环境较为恶劣、传输误码较高时一般采用TS码流,而在信环境较好、传输误码较低时一般采用PS码流。 

 
 11.视频输入接口模式 

 
 Hi3520/Hi3515 芯片支持 
 多种视频接口协议 
 ，且提供灵活多样的配置与各种外围codec 对接。支持的 
 接口时序 
 包括 
  ITU-R BT.656、ITU-R BT.601、ITU-R BT.1120、 
 digital camera 
 等。 

 
 4 个视频输入设备 
 都能支持 
  ITU-R BT.656接口模式， 
 但只有 
 设备 0 和设备2才支持其他几种接口模式。 
 支持BT.656接口模式时，又能支持几种不同的多路复用工作模式，例如 54M2D1、54M 4CIF以及 108M 4D1。 

 
 12.视频输入通道 

 
 视频输入通道与物理上的 
 实际视频采集通道 
 一一对应 
 ，视频输入通道归属于视频输入设备， 
 视频输入设备的接口模式决定了此设备下能支持的通道个数 
 ，一个设备 
 最大支持 
  4 个通道，依次用 ViChn0、ViChn1、ViChn2、ViChn3 标示； 
 除了 
 有多路复用功能的 BT.656接口模式能支持多个通道 
 外 
 ，其他接口模式时每个设备下 
 只能支持 
 1个通道。 

 
 13.分辨率 

 
 分辨率主要有以下 3 种概念： 

 
 −   
 设备分辨率 
 指该设备的输出有效像素点数，由设备时序决定。 

 
 −   
 显示分辨率 
 指画面在显示设备上的有效显示区域。 

 
 −   
 图像分辨率 
 指图像本身的有效像素点数。 

 
 指图像中存储的信息量，是每 
 英寸 
 图像内有多少个像素点，分辨率的单位为PPI(Pixels Per Inch)，通常叫做：像素每英寸。 

 
 14.通道优先级 

 
 当同一输出设备上有多个通道 
 同时输出 
 显示时，按照优先级顺序对输出图像进行叠加。当各个通道的画面有重叠区域时，优先级高的图像显示在上层。如果各个通道 
 优先级一致 
 ，则通道号越大的默认优先级越高。 

 
 15.通道组 

 
     
  通道组是指芯片能够同时处理的编码通道的集合 
 ， 
 相当于一个容器 
 。一个通道组 
 最多可同时包含 
 1路主码流（H.264/MJPEG）、1路次码流（H.264/MJPEG） ，或者仅包含1路 JPEG抓拍（即 JPEG抓拍时，不允许包含任何其他通道） ，或者 1 路MPEG4 编码通道。 

 
 16. Overlay Region 

 
     视频叠加区域，针对码流里打的叠加区域，即通常所说的 
 码流OSD 
 ，即往视频上打字/Logo。同时，还有视频遮挡区域和软件视频叠加区域的选择。 

 
 17.宏块 

 
 将图像划分为  
 16*16(以像素为单位)大小的块 
 ，每一块称为一个宏块。 

 
 18.移动侦测（Motion Detection） 

 
     又称运动检测，是检测 
 正在视频编码 
 的图像是否发生 
 亮度变化以及相应的运动向量 
 。移动侦测功能以 
 宏块 
 为最小单位，计算指定图像的宏块在指定图像 
 间隔内 
 的亮度变化和运动向量。 

 
 ----------------------------------------------------------------------------------- 

 
 码流 /  
 码率 

 
 　  
 码流(Data Rate) 
 是指视频文件 
 在单位时间内使用的数据流量 
 ，也叫码率或码流率， 
 就是取样率, 
 是视频编码中画面质量控制中最重要的部分，一般的单位是 
 kb/s 
 或者 
 Mb/s 
 。一般同样分辨率下， 
 视频文件的码流越大，压缩比就越小，画面质量就越高 
 。码流越大，说明单位时间内取样率越大，数据流精度就越高，处理出来的文件就越接近原始文件，图像质量越好，画质越清晰， 
 要求播放设备的解码能力也越高 
 。 

 
 计算文件体积公式:   文件体积=时间X码率/8 

 
 常见的一部90分钟1Mbps码流的720P RMVB文件，其体积就=5400秒×1Mb/8=675MB。 
 通常一个视频文件包括了画面及声音,并且同一个视频文件音频和视频的 
 采样方式和比特率并不是一样 
 的。而我们所说的一个视频文件码流率大小，一般是 
 指视频文件中音频及视频信息码流率的总和 
 。 

 
  RMVB视频文件为： 

 
 RMVB中的VB，指的是VBR，即Variable Bit Rate的缩写，中文含义是可变比特率，它表示RMVB采用的是动态编码的方式，把 
 较高的采样率用于复杂的动态画面 
 (歌舞、飞车、战争、动作等)，而 
 把较低的采样率用于静态画面，合理利用资源 
 ，达到画质与体积可兼得的效果。 

 
 在介绍: 

 
    位率又称为“码率”。指单位时间内，单个录像通道所产生的数据量,可以根据录像的时间与位率估算出一定时间内的录像文件大小，是一个可调参数。 

 
 影响因素: 

 
 分辨率、 
 场景(画面的抖动情况)、存储空间 。

 
 ----------------------------------------------------------------------------------- 

 
 采样率 

 
 采样率是指将 
 模拟信号转换成数字信号 
 时的采样频率，也就是单位时间内采样多少点。 

 
 电影的采样率是24赫兹，PAL制式的采样率是25赫兹，NTSC制式的采样率是30赫兹。当我们把采样到的一个个静止画面再以采样率同样的速度回放时，看到的就是连续的画面，采样率越高越连贯，再高就区别不了。 

 
 采样位数： 
 可以理解为 
 采集卡 
 处理声音的解析度。这个数值越大，解析度就越高，录制和回放的声音就越真实; 

 
 采样频率 
 是指录音设备在一秒钟内对声音信号的采样次数， 
 采样频率 
 越高声音的还原就越真实越自然。 

 
 ----------------------------------------------------------------------------------- 

 
 比特率 

 
 一个 
 采样点数据有 
 多少 
 个比特 
 。比特率是指每秒传送的比特(bit)数。单位为 bps(Bit Per Second)，比特率越高，传送的数据越大，音质越好 
 .比特率 = 
 采样率 x 采用位数 x声道数. 

 
 以电话为例，每秒3000 
 次取样，每个取样是7比特，那么电话的比特率是21000。 而 
 CD是每秒 44100 
 次取样，两个声道，每个取样是13位PCM编码，所以CD的比特率是44100*2*13=1146600，也就是说CD每秒的数据量大约是 144KB，而一张CD的容量是74分等于4440秒，就是639360KB＝640MB。 

 
 在视频领域,比特率常翻译为码率， 
 比特率 
 表示经过编码（压缩）后的音、视频数据每秒钟需要用多少个比特来表示 
 ，而比特就是二进制里面最小的单位，要么是0，要么是1。比特率越高，音、视频的质量就越好，文件越大；比特率越少则情况刚好相反。 

 
 常见编码模式： 

 
  VBR（Variable Bitrate） 
 动态比特率 
 ,没有固定的比特率，压缩软件在压缩时根据音频数据即时确定使用什么比特率，这是以质量为前提兼顾文件大小的方式. 

 
 ABR（Average Bitrate） 
 平均比特率 
  是VBR的一种插值参数。LAME针对CBR不佳的文件体积比和VBR生成文件大小不定的特点独创了这种编码模式。ABR在指定的文件大小内，以每50帧（30帧约1秒）为一段，低频和不敏感频率使用相对低的流量，高频和大动态表现时使用高流量，可以做为VBR和CBR的一种折衷选择。 

 
 CBR（Constant Bitrate） 
 ，常数比特率 指文都是一种位速率。相对于VBR和ABR来讲，它压缩出来的文件体积很大，而且音质相对于VBR和ABR不会有明显的件从头到尾提高。 

 
 帧速率 

 
 帧速率也称为FPS(Frames PerSecond)的缩写——帧/秒。指 
 每秒钟刷新的图片的帧数 
 ，可以理解为图形处理器每秒钟能够刷新几次。越高的帧速率可以得到更流畅、更逼真的动画。每秒钟帧数(FPS)越多，所显示的动作就会越流畅。 

 
 分辨率 

 
 就是帧大小( 
 一幅图像的大小 
 ),每一帧就是一副图像。 

 
 一个音频编码率为128Kbps，视频编码率为800Kbps的文件，其总编码率为928Kbps， 
 意思是经过编码后的数据每秒钟需要用928K比特来表示。 

 
 ----------------------------------------------------------------------------------- 

 
 高清视频: 

 
 720和1080 
 代表视频流的分辨率，前者1280*720，后者1920*1080，不同的编码需要不同的系统资源，大概可以认为是H.264>VC-1>MPEG2。 
 总的来说，从压缩比上来看，H.264 
 的压缩比率更高一些，也就是同样的视频，通过H.264编码 
 算法 
 压出来的视频容量要比VC-1的更小， 
 但是VC-1 格式的视频在解码计算方面则更小一些。目前的高清视频编码格式主要有H.264、VC-1、MPEG-2、MPEG-4、DivX、XviD、WMA-HD以及X264。事实上，现在网络上流传的高清视频主要以两类文件的方式存在：一 
 类是经过MPEG-2 
 标准压缩，以tp和ts为后缀的视频流文件;一类是经过WMV-HD(Windows Media Video HighDefinition)标准压缩过的wmv文件，还有少数文件后缀为avi或mpg，其性质与wmv是一样的。 
 真正效果好的高清视频更多地以H.264 
 与VC-1这两种主流的编码格式流传。 

 
 一般来说，H.264 
 格式以“.avi”、“.mkv”以及“.ts”封装比较常见。 

 
 ----------------------------------------------------------------------------------- 

 
 像素， 
 就是CCD/CMOS上光电感应元件的数量， 
 一个感光元件经过感光，光电信号转换，A/D转换等步骤以后，在输出的照片上就形成一个点，我们如果把影像放大数倍，会 
 发现这些连续色调其实是由许多色彩相近的小方点所组成，这些小方点就是构成影像的最小单位“像素”（Pixel）。 

 
 ----------------------------------------------------------------------------------- 

 
 像素格式相关 

 
 4:3的标准格式有： 

 
   
 PAL     720x576   25.00fps 像素比1.067 

 
  NTSC   720x480   29.97fps  像素比0.9 

 
 16:9的标准格式有 

 
 PAL     720x576  25.00fps   像素比1.422 

 
 NTSC    720x480  29.97fps  像素比1.2 

 
 720p    1280x720 25.00fps   像素比1.0 

 
 1080p/i 1440x108025.00fps     像素比1.333 

 
 像素比: 
 表示像素的形状，即像素的宽高之比。 

 
 很多朋友总觉得16:9的画面横向像素数要比4:3的画面更多，其实它们的像素数量是一样的，4:3与16:9并不是由像素的数量来区分的？ 

 
 原因:  
 就拿PAL制的标清DV来说，无论4:3还是16:9，画面的像素数都是720*576。 
 其实它们的 
 像素形状是不同 
 的。细心 
 的朋友可能注意过在很多软件里的分辨率设定时，除了有4:3、16:9，制式、高清还是标清以外，还有一个不可选的参数-- 
 -像素比 
 ，以PAL制的DV格式为例，选4:3的时候，像素比是1.0667，选16:9的时候是1.4222。 

 
 画面的长度 = 横向像素数*每个像素长度， 
 宽度 
 = 
 纵向像素数 
 * 
 每个像素宽度 
 。 
 我们假设每个像素宽度为1，那么，4:3的画面中，每个像素的长度就是1.0667，则整个画面的长宽比就是(720*1.0667)/(576*1)=4/3。同样，在16:9的画面中，每个像素长度就是1.4222，则整个画面的长宽比就是(720*1.4222)/(576*1)=16/9。 

 
 显示设备分辨率: 

 
 分辨率 
 ,就是屏幕图像的精密度，是指显示器所能显示的像素的多少。 
 由于屏幕上的点、线和面都是由像素组成的，显示器可显示的像素越多，画面就越精细，同样的屏幕区域内能显示的信息也越多，所以分辨率是个非常重要的性能指标之一。 

 
 ----------------------------------------------------------------------------------- 

 
 6,什么是视频信号? 
 数字视频信号、模拟视频信号？ 

 
 视频信号可分为 
 模拟视频信号 
 和 
 数字视频信 
 号两大类：模拟视频信号和数字视频信号。 

 
 模拟视频是指每一帧图像是实时获取的自然景物的真实图像信号。我们在日常生活中看到的电视、电影都属于模拟视频的范畴。模拟视频信号具有 
 成本低和还原性好 
 等优点，视频画面往往会给人一种身临其境的感觉。但它的最大缺点是不论被记录的图像信号有多好，经过长时间的存放之后，信号和画面的质量将大大的降低；或者 
 经过多次复制之后，画面的失真 
 就会很明显。 

 
 数字视频信号是基于数字技术以及其他更为拓展的图像显示标准的视频信息，数字视频与模拟视频相比有以下特点： 

 
 （1 
 ）数字视频可以可以不失真的进行无数次复制，而模拟视频信号每转录一次，就会有一次误差积累，产生信号失真。 

 
 （2 
 ）模拟视频长时间存放后视频质量会降低，而数字视频便于长时间的存放。 

 
 （3 
 ）可以对数字视频进行非线性编辑，并可增加特技效果等。 

 
 （4 
 ）数字视频数据量大，在存储与传输的过程中必须进行压缩编码。 

 
 模拟视频信号每帧的图像信息是连续获取的，用连续的电信号表示；数字视频信号从摄像机开始就数字化了，光电器件转换的模拟电信号，通过一定速率的模数转换器（A/D 
 ）取样、量化、编码，转换成离散的数字信号，至此，数字视频信号就可以在计算机里做进一步的处理，根据不同的数据压缩编码方案，形成不同格式的数据流 

 
 ----------------------------------------------------------------------------------- 

 
 H264、Xvid等就是视频编码格式，MP3、AAC等就是音频编码格式。将一个Xvid视频编码文件和一个MP3音频编码文件按AVI封装标准封装以后，就得到一个AVI后缀的视频文件，这个就是我们常见的AVI视频文件了。 

 
 部分技术先进的容器还可以同时封装多个视频、音频编码文件，甚至同时封装进字幕，如MKV封装格式。 
 MKV文件可以做到一个文件包括多语种发音、多语种字幕，适合不同人的需要。 

 
 如：MKV文件只要制作的时候同时加入国语和粤语发音的音轨和对应的简体、繁体字幕，播放的时候，你可以独立选择国语或粤语发音，并根据自己需要选择简体或繁体字幕，也可以选择不显示字幕。相当方便。 

 
 一个完整的视频转换设置都至少包括 
 3个步骤: 

 
        A：设置需要的 
 视频编码 
 、B：设置需要的 
 音频编码 
 、C：选择需要的 
 容器封装 
 。 

 
 常用的编码格式有 
 Xvid，H264，MPEG1，MPEG2。 

 
  Xvid：与RMVB格式差不多的压缩率，通用性很强，特别是用于家用DVD和便携式MP4等设备。 

 
   H264：压缩率最高的视频压缩格式，与其他编码格式相比，同等画面质量，文件体积最小，远超RMVB 编 

 
           码格式 
 ，电脑都可以播放，部分便携式视频设备也支持，如苹果播放器。PDA/PPC等设备也可以使用 

 
   MPEG1：其实就是 
 VCD编码格式 
 。 

 
    
 MPEG2： 
 DVD编码格式 
 。比MPEG1强，与MPEG1一样，已经落后的编码格式，压缩率都不高，编码后的文件体积大 
 ，多用于希望把网上下载的文件转换为VCD或DVD碟的时候。 

 
 ----------------------------------------------------------------------------------- 

 
 常见的组合方式： 

 
 封装容器 视频流编码格式 音频流编码格式 

 
 AVI ： Xvid  MP3 

 
 AVI ： Divx  MP3 

 
 Matroska（后缀就是MKV）： Xvid  MP3 

 
 Matroska（后缀就是MKV）： Xvid  AAC 

 
 Matroska（后缀就是MKV）： H264  AAC 

 
 MP4  ： Xvid  MP3 

 
 MP4 ：  H264  AAC 

 
 3GP  ： H.263  AAC 

 
 事实上，很多封装容器对音频编码和视频编码的组合方式放的很开，如AVI还可以使用H264+AAC 
 编码组合 
 ，可以在具体使用中自己体会。尤其是MKV封装容器，基本无论什么样的组合都可以！但一 
 般MKV用的最多的就是H264+AAC 
 组合 
 ， 
 此组合文件体积最小，清晰度最高。因此网上很多 
 MKV视频都是高清晰度的。 

 
 从上 
 表格可以看出，真正设置的重点在于音频编码和视频编码， 
 封装容器多数时候只是关系到最后的文件后缀而已 
 。起码初学者可以就这么理解。 

 
 ----------------------------------------------------------------------------------- 

 
 音视频编码格式汇总 

 
 一、音频 
 编解码 
 格式 
   

 
 *MPEG Audio Layer 1/2  

 
 *MPEG Audio Layer 3(MP3)  

 
 *MPEG2 AAC  

 
 *MPEG4 AAC  

 
 *Windows Media audeo v1/v2/7/8/9  

 
 *RealAudio cook/sipro(real media series)  

 
 *RealAudio AAC/AACPlus(real media series)  

 
 *QDesign Music 2(apple series)  

 
 是QDesign 公司开发的用于高保真高压缩率的编码方式，类似于MP3，不过比MP3要先进。支持流式播放. 

 
 *Apple MPEG-4 AAC(apple series)  

 
 *ogg(ogg vorbis音频)  

 
 *AC3(DVD 专用音频编码)  

 
 *DTS(DVD 专用音频编码)  

 
 *APE(monkey’s 音频)  

 
 *AU(sun 格式)  

 
 *FLAC(fress lossless 音频)  

 
 *M4A(mpeg-4音频)（苹果改用的名字，可以改成.mp4）  

 
 *MP2(mpeg audio layer2音频)  

 
 *WMA ----->PCM 

 
 二、视频 
 编解码 
 格式 
   

 
 *MPEG1(VCD)  

 
 *MPEG2(DVD)  

 
 *MPEG4(divx,xvid) 

 
 *MPEG4 AVC/h.264  

 
 *h.261  

 
 *h.262  

 
 *h.263  

 
 *h.263+  

 
 *h.263++  

 
 *MPEG-4 v1/v2/v3(微软windows media系列)  

 
 *Windows Media Video 7/8/9/10  

 
 *Sorenson Video 3（用于QT5，成标准了）(appleseries)  

 
 *RealVideo G2(real media series)  

 
 *RealVideo 8/9/10(real media series)  

 
 *Apple MPEG-4(apple series)  

 
 *Apple H.264(apple series)  

 
 *flash video 

 
 三、音视频文件格式 
   

 
   首先要分清楚 
 媒体文件和编码的区别 
 ： 
 文件是既包括视频又包括音频、甚至还带有脚本的一个集合，也可以叫容器 
 ；文件当中的视频和音频的 
 压缩 
 算法 
 才是具体的 
 编码 
 。 
   

 
 *AVI : 
 音视频交互存储，最常见的音频视频容器。 
 支持的视频音频编码也是最多的 

 
 *MPG : 
 MPEG编码采用的音频视频容器，具有流的特性。里面又分为 PS 
 ，TS 等，PS 主要用于 DVD 存储，TS 主要用于 HDTV。 

 
 *VOB 
  :DVD采用的音频视频容器格式（即视频MPEG-2，音频用AC3或者DTS），支持多视频多音轨多字幕章节等。 

 
 *MP4 :M 
 PEG-4编码采用的音频视频容器，基于 QuickTime MOV  
 开发，具有许多先进特性。 

 
 *3GP : 
  3GPP视频采用的格式，主要用于流媒体传送。 

 
 *ASF 
  :Windows Media采用的音频视频容器，能够用于流传送，还能包容脚本等。 

 
 *RM : RealMedia 采用的音频视频容器，用于流传送。  

 
 *MOV : QuickTime 的音频视频容器，恐怕也是现今最强大的容器，甚至支持 
 虚拟现实 
 技术， 
 Java 
  等，它的变种 MP4,3GP都没有这么厉害。  

 
 *MKV : 
 MKV 它能把 Windows Media Video，RealVideo，MPEG-4 等视频音频融为一个文件，而且支持多音轨，支持章节字幕等。 

 
 *WAV : 
 一种音频容器（注意：只是音频），  
 WAV 一般就是没有压缩的 PCM 编码 
 ，其实 WAV 里面还可以包括 MP3 等其他ACM 压缩编码。 

 
 四、以文件名标识识别音频编码格式 
   

 
 *.aac  

 
 音频编码：aac  

 
 *.ac3  

 
 音频编码：ac3  

 
 *.ape  

 
 *.au  

 
 音频编码：pcm_s16be  

 
 *.m4a  

 
 音频编码：mpeg4 aac  

 
 *.mp2  

 
 *.mp3  

 
 *.ogg  

 
 音频编码：vorbis  

 
 *.wav  

 
 音频编码：pcm_s16le  

 
 *.flav  

 
 *.wma  

 
 音频编码：wma7x 

 
 五、以文件名标识识别音视频编码格式 
    ---> 
 以文件名来标识视频是哪种编码格式的，还没封装 

 
 1．*.MP4 (MP4 MPEG-4 
 视频)  

 
 视频编码：mpeg4  

 
 音频编码：mpeg4 aac  

 
 ２．*.3gp (3GPP 第三代合作项目) 

 
 视频编码：mpeg4  

 
 音频编码：amr_nb((mono, 8000 Hz, Sample Depth 16 bit,bitrate 12 kbps)  

 
 ３．*.3g2 (3GPP 第三代合作项目2)  

 
 视频编码：mpeg4  

 
 音频编码：mpeg4 aac  

 
 4．*.asf (ASF 高级流格式)  

 
 视频编码：msmpeg4  

 
 音频编码：mp3  

 
 5．*.avi 
 （AVI 音视频交错格式）  

 
 视频编码：mpeg4  

 
 音频编码：pcm_s161e  

 
 6．*.avi （divx 影片）  

 
 视频编码：mpeg4  

 
 音频编码：mp3  

 
 7．*.avi（xvid 视频）  

 
 视频编码：Xvid  

 
 音频编码：mp3  

 
 8．*.vob （DVD）  

 
 视频编码：mpeg2 video  

 
 音频编码：ac3  

 
 9．*.flv (flash 视频格式)  

 
 视频编码：  

 
 音频编码：mp3  

 
 10．*.mp4(iPod 320*240 MPEG-4  
 视频格式)  

 
 视频编码：mpeg4  

 
 音频编码：mpeg4 aac  

 
 11．*.mp4(iPod video2 640*480 MPEG-4 视频格式)  

 
 视频编码：mpeg4  

 
 音频编码：mpeg4 aac  

 
 12．*.mov (MOV 苹果quicktime 格式)  

 
 视频编码：mpeg4_qt  

 
 音频编码：mpeg4 aac_qt  

 
 13．*.mpg （mpeg1影片）  

 
 视频编码：mpeg1 video  

 
 音频编码：mp2  

 
 14．*.mpg （mpeg2 影片）  

 
 视频编码：mpeg2 video  

 
 音频编码：mp2  

 
 15．*.mp4 
 （mpeg4 avc 视频格式）  

 
 视频编码：h.264  

 
 音频编码：mpeg4 aac  

 
 16．*.mp4 （PSP mpeg4 影片）  

 
 视频编码：Xvid  

 
 音频编码：mpeg4 aac  

 
 17．*.mp4 （PSP AVC 视频格式）  

 
 视频编码：h.264  

 
 音频编码：mpeg4 aac  

 
 18．*.rm （RM realvideo）  

 
 视频编码：rv10  

 
 音频编码：ac3  

 
 19．*.mpg (超级VCD)  

 
 视频编码：mpeg2 video  

 
 音频编码：mp2  

 
 20．*.swf (SWF 格式)  

 
 视频编码：  

 
 音频编码：mp3  

 
 21．*.mpg （video CD 格式）  

 
 视频编码：mpeg1 video  

 
 音频编码：mp2  

 
 22．*.vob （mpeg2 ps格式）  

 
 视频编码：mpeg2 video  

 
 音频编码：ac3  

 
 23．*.wmv（windows 视频格式）  

 
 视频编码：wmv3x  

 
 音频编码：wma7x 

 
 我们可以大概认为，100W(720P)像素摄像机的码流为4.5M，130W(960P)像素摄像机的码流为6M，200W(1080P)像素摄像机的码流为8M，300W像素摄像机的码流为10M，500W像素摄像机的码流为13-15M。 

 
 编码格式不同，分装相同的文件，不能播放。 

 
 解码上墙: 

 
 Telnet: 

 
 Telnet协议是 
 TCP/IP协议 
 族中的一员，是Internet 
 远程登陆 
 服务的标准协议和主要方式。它为用户提供了在本地计算机上完成远程 
 主机 
 工作的能力。在 
 终端 
 使用者的电脑上使用telnet程序，用它连接到 
 服务器 
 。 
 终端 
 使用者可以在telnet程序中输入命令，这些命令会在 
 服务器 
 上运行，就像直接在服务器的控制台上输入一样。可以在本地就能控制 
 服务器 
 。要开始一个telnet会话，必须输入用户名和密码来登录 
 服务器 
 。Telnet是常用的 
 远程控制 
 Web 
 服务器 
 的方法。 

 
 在视频监控领域，除了ONVIF和PSIA两个基于IP网络的产业联盟标准外，还有另 
 一个无损高清视频传输标准：HD CCTV 
 . 

 
  HDcctv是什么? 

    
 　　由HDcctv联盟(HDcctv Alliance®)推出的HDcctv标准是通过同轴电缆传输非压缩的无损高清视频信号的一个物理电气接口标准，是世界上唯一的综合性高清监控录像的电气标准。该标准是由国际标准SMPTE-292M派生，也就是在现有“高清晰度串行数字接口”或HD-SDI的基础上，以它作为核心的传输方式，并在此基础上进行一些改动、增减，最后形成了一个适用于视频监控领域的标准。 

 
  　　HD-SDI已经应用于广电领域接近25年，其技术较为成熟，H 
 Dcctv有别于HD-SDI的方面是，它增加了兼容性测试以保证其产品的互联性 
 。HDcctv所有的产品都可以保证产品的兼容性，但是HD-SDI却不能，HD-SDI的应用领域小、量少，对兼容性的要求不是很高。而监控却是要求重复性大量生产，兼容性非常重要。生产厂家可以很容易的把HDcctv以及HD-SDI采纳，但是HD-SDI不一定能保证产品的互联性，HDcctv却能够保证产品的互联性。 

 
  　 
 　HDcctv标准与我们较为熟悉的H.246以及SVAC标准区别很大，一个是信道，一个是信源 
 ，像H.264和SVAC是一种编码标准，在信源上对图像进行压缩再传输，而 
 经过压缩后所传输的信号变成了数字信号，已经不再是视频信号 
 。 

 
  　　 
 HDcctv是一个传输标准，是通过同轴电缆传输无损的高清数字视频信号，传输进去的时候是视频信号，出来后依旧是视频信号。 

 
  　　此外，基于HDcctv标准的HDcctv系统，更新以及安装都非常方便。把线缆保留下来，只需用更换前端的模拟摄像机、后端的存储设备以及配套的显示设备，就可以把系统由模拟变成高清的。同时它也可以避免比较复杂的管理，跟IT架构相比， HDcctv电缆系统是一个非常简单的系统。 

 
  　　HDcctv的标准在不断发展，HDcctv联盟会已发布2.0的版本，包括兼容性、运用XR技术、基于远距离传输的一些技术。到2012年，会增加双向语音、数字通讯和同轴供电等相关技术，把它整体的可用性、覆盖面以及整体的适用能力提的更高。3.0的版本，还会加双向语音的技术，传输距离也可以由原来的一百多米到将近三百米。后续HDcctv还可以达到每帧一千万像素的高度，包括3D影像也会逐渐的被考虑进去。随着整个HDcctv的不断发展，在更多的层面会相较于原来绝大部分要用到压缩的IP而言有更多的优势。 

 
 --------------------------------------------------------------------------------------------------------------------------- 

 
 TDD噪声： 

 
   参考:   
 http://www.doc88.com/p-9733396257793.html 

 
 ---------------------------------------------------------------------------------------------------------------------------- 

 
 live555: 

 
      是一个为 
 流媒体 
 提供解决方案的跨平台的C++开源项目，它实现了对标准流媒体传输是一个为流媒体提供解决方案的跨平台的C++开源项目，它实现了对标准流媒体 
 传输协议 
 如RTP/RTCP、RTSP、SIP等的支持。Live555实现了对多种音视频编码格式的音视频数据的流化、接收和处理等支持，包括MPEG、H.263+、DV、JPEG视频和多种音频编码。同时由于良好的设计，Live555非常容易扩展对其他格式的支持。目前，Live555已经被用于多款播放器的流媒体播放功能的实现，如VLC(VideoLan)、MPlayer。 

 
 CGi:     
    
    web与外部程序通信的标准协议

 
     
 http://blog.chinaunix.net/uid-13408389-id-2894933.html 

 
 CMOS：( 
 两种 
 ) 

 
 http://www.eeworld.com.cn/tags/CMOS 

  -------------------------------------------------------------------------- 

 
 水印: 

 
 水印呢，就是你看到一些图片或者视频上有那种一般是半透明的标志，是作者为了保护自己的版权，特意打在上面的，比如说 
 土豆网 
 的视频的左上角那个“ 
 土豆网 
 ”的标志……讨厌啊~~~ 

 
 ----------------------------------------------------------------------------------------- 

 
 咪头 
 : 

 
 咪头 
 ，是将声音信号转换为电信号的能量转换器件，是和喇叭正好相反的一个器件（电→声）。是声音设备的两个终端，咪头是输入，喇叭是输出。又名麦克风，话筒，传声器。

 
 ---------------------------------------------------------------------------------------------------------------------- 

不知者不罪

关注

3
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
音视频处理的一些概念

一、媒体处理平台（MPP） hi3531/3532 编码二、视频缓存池：向媒体业务提供大块内存管理功能。三、视频编码模块VENC支持以下协议编码：（1）H.264 （2）JPEG （3）MJPEG （4）MPEG-4四、编码模块的输入源包括三类：（1）用户态读取图像文件向编码模块发送数据（2）视频输入（VIU）模块采集的图
复制链接

扫一扫