借用了FlvParse这个工具和UI,结合官方文档分析出来的。
此工具挺好,就是不开源,而且对于Metadata Tag的数据也没有精确显示到每一个byte。实际使用当中还出现字段没有完全显示之类的。
其中遇到了和作者的一些分歧。所以写下我自己的总结,下面是这个工具的cnblog:
http://www.cnblogs.com/xxcainiao/archive/2010/01/12/1645408.html
===================================================================================
FLV是一个二进制文件,由文件头(FLV header)和很多tag组成。tag又可以分成三类:audio,video,script(metaData),分别代表音频流,视频流,脚本流(关键字或者文件信息之类)。
######################################################
本文分析的FLV文件来源分别于56网与FMS服务器
######################################################
一、FLV头分析
FLV Header
一般比较简单,包括文件类型之类的全局信息,如图:
文件类型 | 3bytes | 总是FLV(0x46 0x4C 0x56),否则... |
1、FLV 3bytes:0x46 0x4C 0x56标识FLV文件
2、版本号1bytes:0x01,表示FLV version 1
3、流信息 1bytes:0x04,表示成二进制位0000 0100,在这8个bit中,倒数第一位为1则表示有视频,倒数第三位为1表示有音频,这里表示有音频
4、Head的大小4bytes:0x00 0x00 0x00 0x09,整个文件头的长度,3 bytes + 1 bytes + 1 bytes + 4 bytes = 9
5、Head Tag长度 4bytes:0x00 0x00 0x00 0x00,一般为0,表示head标签
二、FLV标签分析
FLV Header之后便是FLV body,由很多tag组成的。
FLV文件里面帧的实体就是tag了。每个tag都可以分为两部分,第一部分包含是tag 类型信息,长度固定为15bytes
Metadata Tag
第一个tag为Metadata Tag[0x0000000D]
1、Tag Header 11bytes:
a、type(类型) 1bytes:此处为0x12即十进制的18
b、data size(数据区长度) 3bytes:此处为0x00 0x00 0xE0
c、time stamp(时间戳) 3bytes:此处为0x00 0x00 0xE0
d、expand time stamp(扩展时间戳) 1bytes:此处为0x00
e、stream id(流ID) 3bytes:此处为0x00 0x00 0xE0
2、Tag Data(大小为Tag Header中字段data size + 11[head的长度])
前18bytes定死,填0也行,不过一般保持默认
a、amf 1 type 1bytes:固定为0x02
b、string size 2bytes:固定为0x00 0x0A,即为10长度,表示字符串onMetaData的长度
c、string 10bytes(由上一个字段string size决定):固定为0x6F 0x6E 0x4D 0x65 0x74 0x64 0x44 0x61 0x74 0x61,表示字符串onMetaData
d、amf 2 type 1bytes:固定为0x08
e、array size 4bytes:表示接下来的metadata array data 中有多少组数据
综上:在metadata tag data部分的长度可以这么计算:
metadata array data size = data size(数据区长度) - 18bytes(上面几个字段的长度)
f、metadata array data:①前面2bytes表示,第N个数组的名字所占的bytes,继续读下去就可以知道数组的名字,例:
这里为0x00 0x08表示后面的8个bytes表示数组的名字
duration即为读出来的数组的名字信息
②跟着下去的1bytes表示这个数组的属性信息,
大体的类型介绍如下:
00类型-----随后的8bytes表示该属性对应的float值;
01类型-----随后的1bytes表示boolean,比如是否有视频为01表示“含有”的意思;
02类型-----后跟的2bytes表示字符串长度,然后再根据这个长度从后边的bytes中读取出字符串;
03类型-----数组信息的结束;
0A类型-----数据变量,占4bytes;
0B类型-----占10bytes,表示日期;
③metadata array data最后的3个bytes应为0x00 0x00 0x09表示metadata array data的结束
Pre Tag size:Metadata Tag总的长度 4bytes
可以通过以下公式来计算这个长度:
Pre Tag size = data size + 18 + 11;
事实证明:
把Metadata Tag data数据全部填上0也不影响数据的播放。但删掉后从新改写各个size却显示无法渲染= = 估计会和前面的flv header具有相关性。
这是一张网上分析flv文件中File Header和Metadata Tag的图片
我开始我是按照他的格式加上FlvParse.exe来进行分析的,但是这个文件看起来很规范,没有冗余信息的情况。所以补上几个另外的
比如下面的这个2011.flv
到此为止的信息还是很好理解的
但是在这里,读到最后一个的时候,类型为03,数据值就没有了
用UI打开来看,他里面是存在有描述的
至少后续还可以独处来一个times
反复查看了一下官方的标准标签:
是没有times这个类型的,不过这里确实可以存在冗余信息(可以进行对视频一些版权的夹入,一般工具也不会对其进行解析)
所以,我也只能是以上面官方描述的标签信息进行解析,其他的一切全部跳过,当成冗余信息(因为冗余信息如果夹在标准便签的后面,他就不算能一个真正的元信息描述)。
FLV容器的一个大概描述是这样的:
Audio Tag:
1、Tag Header 11bytes:
a) type(类型) 1bytes:此处为0x08 表示音频
b) data size(Audio数据大小) 3bytes:此处为0x00 0x01 0xA2换成十进制为418
c) Tag current time stamp(时间戳) 由前面 time stamp 3bits与后面expand time stamp 1bits运算构成,参考Video的计算公式。
因为是第二个Tag(第一个为Meta Tag)所以这里为0x00 0x00 0x00
d) stream ID(流ID) 3bytes:一般看到的都是0x00 0x00 0x00
2、Tag Data(大小由上面的data size描述)
a) 第一位为:
转换成bit为:00001 1111
可惜的是官方文档并没有讲解每一个bits的含义,但是这篇文章给出了,在此谢谢作者
http://blog.csdn.net/tianyue168/article/details/5994962
引用说明(些许修改):
前四bits表示音频格式,
0--------------未压缩
1--------------ADPCM压缩
2--------------MP3压缩
3--------------Unknow
4--------------Unknow
5--------------Nellymoser 8kHz momo
6--------------Nellymoser
7--------------G.711 A-law logarithmic PCM
8--------------G.711 mu-law logarithmic PCM
9--------------reserved
10-------------AAC
11-------------Speex
12-------------Unknow
13-------------Unknow
14-------------MP3 8-kHz
15-------------Device -specific sound
第五、六bits表示sample rate(采样速率):
0--------------5.5kHz
1--------------11kHz
2--------------22kHz
3--------------44kHz
第七bits表示sample size(采样长度):
0--------------snd8Bit
1--------------snd16Bit
第八bits表示type(类型):
0--------------sndMomo
1--------------sndStereo
b) Audio data:长度为Header中的(data size - 1)bytes
----------应该是视频的裸数据--------现在只是猜测--------------
3、Pre Tag Size(标签的长度) 4bytes:
Video Tag:
1、Tag Header 11bytes:
a) type(类型) 1bytes:此处为0x09 表示视频
b) data size(Audio数据大小) 3bytes:此处为0x00 0x00 0x25换成十进制为37
c) Tag current time stamp(时间戳) 由前面 time stamp 3bits与后面expand time stamp 1bits运算构成
time stamp3bytes:此处为0x00 0x00 0x1B换成十进制为27
expand time stamp(扩展时间戳) 1bytes:此处为0x00
那么 time stamp(时间戳) 可以有:(time stamp | expand time stamp) << 24
d) stream ID(流ID) 3bytes:一般看到的都是0x00 0x00 0x00
2、Tag Data(大小由上面的data size描述)
a) 第一位为:
转换成bit为:00001 0100
前四bits表示音频格式,
0--------------Unknow
1--------------keyframe
2--------------inner frame
3--------------disposable inner frame (H.263 only)
4--------------Unknow
5--------------Unknow
6--------------Unknow
7--------------Unknow
8--------------Unknow
9--------------Unknow
10-------------Unknow
11-------------Unknow
12-------------Unknow
13-------------Unknow
14-------------Unknow
15-------------Unknow
后四bits表示编码器ID
0--------------Unknow
1--------------Unknow
2--------------Seronson H.263
3--------------Screen video
4--------------On2 VP6
5--------------On2 VP6 without channel
6--------------Screen video version 2
7--------------AVC
8--------------Unknow
9--------------Unknow
10-------------Unknow
11-------------Unknow
12-------------Unknow
13-------------Unknow
14-------------Unknow
15-------------Unknow
b) Video data:长度为Header中的(data size - 1)bytes
----------应该是视频的裸数据--------现在只是猜测--------------
3、Pre Tag Size(标签的长度) 4bytes:
http://blog.csdn.net/zengraoli/article/details/7742278