FLV文件格式解析

FLV是一个二进制文件,由文件头(FLV header)和很多tag组成。tag又可以分成三类:audio,video,script,分别代表音频流,视频流,脚本流(关键字或者文件信息之类)。

 

FLV Header

一般比较简单,包括文件类型之类的全局信息,如图:

文件类型3bytes总是FLV(0x46 0x4C 0x56),否则...
版本1byte一般是0x01,表示FLV version 1
流信息1byte倒数第一bit是1表示有视频,倒数第三bit是1表示有音频,其他都应该是0(有些软件如flvtool2可能造成倒数第四bit是1,不过也没发现有什么不对)
header长度4bytes整个文件头的长度,一般是9(3+1+1+4),有时候后面还有些别的信息,就不是9了
   

FLV Body

FLV body就是由很多tag组成的。

FLV文件里面帧的实体就是tag了。每个tag都可以分为两部分,第一部分包含是tag 类型信息,长度固定为15字节,如图:

 

第二部分为tag data,也就是flv的数据(有音频,视频,脚本等三类数据),根据不同的tag类型就有不同的数据区,数据区的长度由第一部分的数据区长度字段定义,如图:

previoustagsize4bytes前一个tag的长度,第一个tag就是0
tag类型1byte

三类:

  • 8 -- 音频tag
  • 9 -- 视频tag
  • 18 -- 脚本tag
数据区长度3bytes 
时间戳3bytes单位毫秒,如果是脚本tag就是0
扩展时间戳1byte作为时间戳的高位
streamsID3bytes总是0(不知道干啥用)
数据区  

接下来就是下一个tag的内容,其开始的四个字节定义了上个tag的总长度,注意上个tag的总长度中不包括上个tag之前的4个描述再上一个tag的长度的4个字节,如图:

接下来说一下文件尾,在文件尾的最后有四个字节是定义最后一个tag的长度的,如图:

这里我门可以算一下,是00 00 00 DD是221,最后一个tag的长度是221,如图:

 

 

下面是不同类型的tag数据区的内容体

Audio tag 数据区

audio信息1byte

前四位bits表示音频格式:

  • 0 -- 未压缩
  • 1 -- ADPCM
  • 2 -- MP3
  • 5 -- Nellymoser 8kHz momo
  • 6 -- Nellymoser

下面两位bits表示samplerate:

  • 0 -- 5.5kHz
  • 1 -- 11kHz
  • 2 -- 22kHz
  • 3 -- 44kHz

下面一位bit表示每个采样的长度:

  • 0 -- snd8Bit
  • 1 -- snd16Bit

下面一位bit表示类型:

  • 0 -- sndMomo
  • 1 -- sndStereo
audio数据区不定 

 

video tag 数据区

video信息1byte

前四位bits表示类型:

  • 1 -- keyframe
  • 2 -- inner frame
  • 3 -- disposable inner frame (H.263 only)

后四位bits表示编码器id:

  • 2 -- Seronson H.263
  • 3 -- Screen video
  • 4 -- On2 VP6
  • 5 -- On2 VP6 without channel
  • 6 -- Screen video version 2
video数据区不定 

 

script tag 数据区

略n字...

下面是自己写的一段根据上面对FLV文件结构的分析读取FLV播放时间的Delphi代码:


{$R *.dfm}
procedure TForm1.Button1Click(Sender: TObject);
begin
OpenDialog1.Execute;
Edit1.Text:=OpenDialog1.FileName;
end;

procedure TForm1.Button2Click(Sender: TObject);
var
    iFileHandle:   Integer;
    iFileLength:   Integer;
    iBytesRead:   Integer;
    Buffer:   array   of   Byte;
    i:   Integer;
    str1,str2:String;
    tminute,tSecond,tMillisecond,tmptime:Integer;
begin
    if Edit1.Text = '' then
    begin
      ShowMessage('请选择文件!');
      exit;
    end;
    iFileHandle   :=   FileOpen( Edit1.Text ,   fmOpenRead);
    iFileLength   :=   FileSeek(iFileHandle,   0,   2);
    FileSeek(iFileHandle,   0,   0);
    SetLength(Buffer,   iFileLength);
    iBytesRead   :=   FileRead(iFileHandle,   Buffer[0],   iFileLength);
    FileClose(iFileHandle);
    str1   :=   '';
    for   i   := iBytesRead   -   4   to   iBytesRead   -   1   do
    begin
        str1   :=   str1   +   IntToHex(Buffer[i],2);
    end;
    str2   :=   '';
    for   i   := iBytesRead   -   StrToInt('$'+str1) to   iBytesRead   -   (StrToInt('$'+str1)-2)   do
    begin
        str2   :=   str2   +   IntToHex(Buffer[i],2);
    end;
    tMillisecond:=strtoint('$'+str2);
    tminute:=(tMillisecond div 1000) div 60;
    tSecond:=(tMillisecond div 1000) mod 60;
    tmptime:=tMillisecond mod 1000;
    Label2.Caption:=IntToStr(tminute)+'分'+IntToStr(tSecond)+'秒';
    Buffer   :=   nil;
end;

 

 

FLV是流媒体封装格式,我们可以将其数据看为二进制字节流。总体上看,FLV包括文件头(File Header)和文件体(File Body)两部分,其中文件体由一系列的Tag及Tag Size对组成。因此一个FLV文件看上去是下面的结构:

FLV文件格式解析

    其中,Previous Tag Size紧跟在每个Tag之后,占4个字节表示一个UI32类型的数值,表示前面一个Tag的大小。需要注意的是,Previous Tag Size #0的值总是为0Tag类型包括视频、音频和Script,且每个Tag只能包含一种类型的数据。下面我们看看File HeaderTag的具体结构,为了方便大家理解,我贴一个实际FLV文件的字节流图片,图片中把不同部分区分了颜色。

FLV文件格式解析

 

一、File Header结构

    File Header在当前版本中总是由9个字节组成,如图中蓝色区域所示。

    第1-3字节为文件标识(Signature),总为“FLV”(0x46 0x4C 0x56),如图中紫色区域。

    第4字节为版本,目前为1(0x01)。

    第5个字节的前5位保留,必须为0。

    第5个字节的第6位表示是否存在音频Tag。

    第5个字节的第7位保留,必须为0。

    第5个字节的第8位表示是否存在视频Tag。

    第6-9个字节为UI32类型的值,表示从File Header开始到File Body开始的字节数,版本1中总为9。

 

二、Previous Tag Size结构

    如图中红色位置所示。

 

三、Tag结构

    Tag包括Tag Header和Tag Data两部分。不同类型的Tag的Header结构是相同的,但是Data结构各不相同。如图中绿色和黄色区域分别表示Tag Header数据和Tag Data数据。

    当前版本的Tag Header结构占用11个字节。

    第1个字节表示Tag类型,包括音频(0x08)、视频(0x09)和script data(0x12),其他类型值被保留。

    第2-4字节为UI24类型的值,表示该Tag Data部分的大小。

    第5-7字节为UI24类型的值,表示该Tag的时间戳(单位为ms),第一个Tag的时间戳总是0。

    第8个字节为时间戳的扩展字节,当24位数值不够时,该字节作为最高位将时间戳扩展为32位值。

    第9-11字节为UI24类型的值,表示stream id,总是0。

    后面的字节为Tag Data数据,Data的大小由第2-4字节的数值指示,根据第1个字节指示的Tag类型,按照不同的结构解析Tag Data。下面分别介绍。

 

四、Audio Tag Data结构

    音频Tag开始的第1个字节包含了音频数据的参数信息,从第2个字节开始为音频流数据。

    第1个字节的前4位的数值表示了音频数据格式,各值代表的意义大家可以查阅Adobe公司发布的FLV格式说明文档(可以到我的磁盘空间的“资料”目录去下载 http://e.ys168.com/?tinyfun)。

    第1个字节的第5-6位的数值表示采样率,0 = 5.5 kHz,1 = 11 kHz,2 = 22 kHz,3 = 44 kHz。

    第1个字节的第7位表示采样精度,0 = 8bits,1 = 16bits。

    第1个字节的第8位表示音频类型,0 = mono,1 = stereo。

 

五、Video Tag Data结构

    视频Tag也用开始的第1个字节包含视频数据的参数信息,从第2个字节开始为视频流数据。

    第1个字节的前4位的数值表示帧类型。

    第1个字节的后4位的数值表示视频编码ID,1 = JPEG(现已不用),2 = Sorenson H.263,3 = Screen video,4 = On2 VP6,5 = On2 VP6 with alpha channel,6 = Screen video version 2。

 

六、Script Tag Data结构

    该类型Tag又通常被称为Metadata Tag,会放一些关于FLV视频和音频的参数信息,如duration、width、height等。通常该类型Tag会跟在File Header后面作为第一个Tag出现,而且只有一个。

    一般来说,该Tag Data结构包含两个AMF包。AMF(Action Message Format)是Adobe设计的一种通用数据封装格式,在Adobe的很多产品中应用,简单来说,AMF将不同类型的数据用统一的格式来描述。第一个AMF包封装字符串类型数据,用来装入一个“onMetaData”标志,这个标志与Adobe的一些API调用有,在此不细述。第二个AMF包封装一个数组类型,这个数组中包含了音视频信息项的名称和值。具体说明如下,大家可以参照图片上的数据进行理解。

 

    第一个AMF包:

       第1个字节表示AMF包类型,一般总是0x02,表示字符串,其他值表示意义请查阅文档。

       第2-3个字节为UI16类型值,表示字符串的长度,一般总是0x000A(“onMetaData”长度)。

       后面字节为字符串数据,一般总为“onMetaData”。

 

    第二个AMF包:

       第1个字节表示AMF包类型,一般总是0x08,表示数组。

       第2-5个字节为UI32类型值,表示数组元素的个数。

       后面即为各数组元素的封装,数组元素为元素名称和值组成的对。表示方法如下:

       第1-2个字节表示元素名称的长度,假设为L。

       后面跟着为长度为L的字符串。

       第L+3个字节表示元素值的类型。

       后面跟着为对应值,占用字节数取决于值的类型。

 

    OK,到此FLV文件结构讲完了,希望我已经讲清楚了:)另外我自己写了一个小工具,用它可以查看一个FLV文件的结构,并且能够分析各个字段对应字节的具体值,截图如下。目前还有一些小问题需要完善,后面我会加一个使用说明。想用的朋友可以到我磁盘空间的“工具”目录去下载。(http://tinyfun.ys168.com/

FLV文件格式解析

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值