socket中tcp的断包和粘包都是tcp协议中出现的问题。
以太网中存在一个对于帧的有效数据大小的限制,即MTU,以太网的MTU为1500字节。所谓断包的意思就是说发送端一次发送的消息长度过大,如果超过了MTU,那么ip会对其进行分片。
在网络编程中,我们要避免出现IP分片,那么为什么要避免呢?原因是IP层是没有超时重传机制的,如果IP层对一个数据包进行了分片,只要有一个分片丢失了,只能依赖于传输层进行重传,结果是所有的分片都要重传一遍,这个代价有点大。由此可见,IP分片会大大降低传输层传送数据的成功率,所以我们要避免IP分片。
对于UDP包,我们需要在应用层去限制每个包的大小,一般不要超过1472字节,即以太网MTU(1500)—UDP首部(8)—IP首部(20)。
对于TCP数据,应用层就不需要考虑这个问题了,因为传输层已经帮我们做了。在建立连接的三次握手的过程中,连接双方会相互通告MSS(Maximum Segment Size,最大报文段长度),MSS一般是MTU—IP首部(20)—TCP首部(20),每次发送的TCP数据都不会超过双方MSS的最小值,所以就保证了IP数据报不会超过MTU,避免了IP分片。
而断包就是因为MSS的存在,当消息长度过大,例如超过了1460字节(因为tcp首部一般为20个字节,ip首部为20个字节),那么tcp就会将其分片,然后每片被tcp封装,然后由ip封装,最后被传输到接收端,这样子当接收端接收到消息后,就会不清楚这是不是一个完整的消息。
粘包则是因为为了提高网络利用率,当传输层发现传输的数据长度太小时,会等待多个消息一起发送,这时候就会提高网络利用率,但是当接收端接收过以后,会不知道这是一个完整的消息,还是多个消息在一起。从而有可能将其作为一个消息来处理。nagle算法就是实现的这个功能。
而对于断包和粘包的通常处理方法为将消息封装为一定的格式,例如每个消息头部为aa,尾部为55,或者将整个消息的有效长度标明,这样子当接收端接收到消息之后,就可以以此来分辨消息是不是我完整的。