TCP粘包是指一次接收的数据不能完全地体现一个完整的消息数据。
1、TCP通讯为何存在粘包呢?
tcp是一个流式协议,所谓流,就是没有界限的一串数据。就像河里的流水,是连成一片的,没有分界线。tcp底层并不了解上层数据的具体含义,它会根据tcp缓冲区的实际情况进行包的划分。
所以在业务上认为,一个完整的包有可能被tcp拆分成多个包进行发送,也有可能把多个小包封装成一个大的数据包发送,这就是所谓的tcp拆包、粘包问题。
2、如何处理粘包/半包问题?
处理粘包/半包的思路就是找出
数据边界
,也就是指定应用层的数据通讯协议
。
netty内置的三种编解码器
- 分隔符解码器
DelimiterBasedFrameDecoder
如尾部加上特殊字符接收,如$_
- 定长解码器
FixedLengthFrameDecoder
如5位定长字符串接收,够长度就发送,如果不够可以用空格补位,否则可能造成数据丢失
- 定长字段
LengthFieldBasedFrameDecoder
在处理个性化业务时,会将消息分为消息头和消息体,在消息头中包含消息总长度的字段,然后进行业务逻辑的处理
以上三种经常被称为一次解码器,而把MessageToMessageDecoder成为二次解码器。
常用二次编解码方式
java序列化的硬伤太多,比如序列化后的码流太大,序列化性能太低,生产可以选择的序列化框架有:
- jboss masharling:使用Jboss的Marshalling包,它对jdk默认的序列化框架做了优化。Server和Client里需要加上以下Marshalling编解码,可以直接解析java对象:
MarshallingCodeCFactory.buildMarshallingDecoder()
MarshallingCodeCFactory.buildMarshallingEecoder()
- google protobuf
- facebook thrift
- json、xml、msgpack、其他。。
生产环境在选择编解码方式的出发点
- 空间:编码后占用的空间
- 时间:编解码速度
- 可读性:编解码后是否可读,如json可读
- 多语言支持