今天,公司要求在媒体服务器上实现websocket-flv播放,即通过Websocket技术来实现flv播放。笔者以前曾用Websocket协议实现过一个百万级别的即时通信服务器,但到今日已有时日,对Websocket协议的帧格式是记不清楚了,今日正好重新复习一下,做笔记如下,已备忘。
浏览器通过GET方式发送Websocket请求,服务器通过判断其请求头部是否包含 “Upgrade: websocket”请求头来判断是否Websocket协议,如果存在这个请求头,则表示用Websocket协议来通信。服务器回应Websocket握手协议后,将采用Websocket数据帧来发送数据,Websocket数据帧是由如下部分组成的:
标志位:
1个字节;最高位为 FIN 标志位,如果是1表示这是帧的最后一个分片,RSV1, RSV2, RSV3为扩展进行定义,一般情况下全为0。Opcode: 4个位,操作代码,Opcode的值决定了应该如何解析后续的数据载荷(data payload)。
FIN | RSV1 | RSV2 | RSV3 | opcode |
%x0:表示一个延续帧。当Opcode为0时,表示本次数据传输采用了数据分片,当前收到的数据帧为其中一个数据分片。
%x1:表示这是一个文本帧(frame)
%x2:表示这是一个二进制帧(frame)
%x3-7:保留的操作代码,用于后续定义的非控制帧。
%x8:表示连接断开。
%x9:表示这是一个ping操作。
%xA:表示这是一个pong操作。
%xB-F:保留的操作代码,用于后续定义的控制帧。
帧长度:
1个字节、2个字节或者8个字节。
帧数据:
为长度可变的数据。
数据帧的视图如下:
构建Websocket 帧头的C语言代码如下:
#define FLAGS_MASK_FIN (1 << 7)
#define FLAGS_MASK_OP 0x0f
static u_char *
setup_ws_header(u_char * p, int op, size_t len) {
u_char * ph;
*p++ = FLAGS_MASK_FIN | (op & FLAGS_MASK_OP);
if (len < 126) {
*p++ = (u_char) len;
} else if (len <= 65535) {
uint16_t tmp = htons((uint16_t) len); //
ph = (u_char *) &tmp;
*p++ = 126;
*p++ = *ph++;
*p++ = *ph++;
} else {
uint32_t tmp;
*p++ = 127;
tmp = htonl((uint32_t)((uint64_t) len >> 32));//
ph = (u_char *) &tmp;
*p++ = *ph++;
*p++ = *ph++;
*p++ = *ph++;
*p++ = *ph++;
tmp = htonl((uint32_t)(len & 0xffffffff));//
ph = (u_char *) &tmp;
*p++ = *ph++;
*p++ = *ph++;
*p++ = *ph++;
*p++ = *ph++;
}
return p;
}