中文转码:gbk
英文转码:utf-8
乱码原因:双方采用的编码格式不一致
一个字符,八个bit信息
压缩:由定长编码变成变长编码,压缩极为优秀,但是容易产生歧义
字符统计法:根据每个字符出现的频次,对其出现频次进行排序
那咋办呢?
哈夫曼树和哈夫曼编码横空出世!
路径和路径长度:一个节点到另一个节点,经过几个节点
节点的权:即节点的值,只有叶子节点有权
带权路径长度:权乘以路径长度
哈夫曼树:所有路径上的带权路径值和最小
构建哈夫曼树原则:让权值越大的节点离根节点越近
通过哈夫曼树对数据进行压缩
编码原则:左支为零,右值为一
歧义不再!灰常nice!
这样压缩率可达到50%左右