System.out.println(str);
解释:
比如 “汉” 这个字要在网络上传输,最终是要使用二进制表示电压
unicode 编码表中 “汉”字的编码是0x6C49,
转成UTF-8格式,对照映射表, 0x6C49在0x0800-0xFFFF之间, UTF-8使用用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx
0x6C49 是16进制表示, 6C49 写成二进制是:0110 1100 0100 1001
用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89
在 java 中,首先要把汉字转成字节,计算出来的 是 -26,-79,-119,我们发现和E6 B1 89 不同
那么是如何换算呢
E6 => 1110 0110 因为JAVA中 byte 是 -128 ~ 127,高位是符号位
计算方式为 采用补码计算 取反后+1 去掉符号位,0001 1001 + 1 = 16+8+1 + 1 = 26
高位1 位负数, 所以 E6 对应 -26, 在通过字节传输给网络流,转成二进制
那么使用UTF-8 将一串中英文转成二进制,计算机如何接收呢
这个就是UTF-8规则编码,计算机指定了UTF8编码接收二进制并进行转移,当发现字节以0开头,表示这是一个标准ascii字符,直接转义 ,当发现1110开头,就说明接下来的三个字节表示一个汉字,则取3个字节去掉模板后转义,UTF8编码模板如下
1字节 0xxxxxxx
2字节 110xxxxx 10xxxxxx
3字节 1110xxxx 10xxxxxx 10xxxxxx
4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
base64
作用:
主要用于将二进制数据转换成可见字符
由来:
早期 MIME 协议 Multipurpose Internet Mail Extensions 只能传输ASCII字符,这样非英文字符和图片就无法在邮件中发送
(ASCII包含的字符少,GBK等包含的中文在ascii表示不了,所以有UTF)
BASE64就是将这些二进制数据转换成64个定义好的ASCII字符,一方面可以传输,一方面可以也可见,比如XML里加入二进制图片持久化,就是用 BASE64 进行存储
BASE64 最小使用单元是3字节,24bit 转换后将24bit且成4块,然后每块是6bit,因为计算机存储字节是8bit,所以在高位补两个0
e.g. 100101 转换后 00100101
这样就得到了4个ascii 字符,不过长度也随之增加
另外,URL里不支持 / +这类字符,所以一般使用 safe url base 64编码,由于BASE64是3*8 = 4*6 的游戏,
注意:当转换成6位时,需要查BASE64编码表,而不是查ASCII表,另外,当转化不是3的倍数时,看下图
(借用网上的一张图片 http://www.cnblogs.com/caoyc/p/5794720.html)
这里再举例小写 a
01100001 转换后是 011000 010000 补4个0变成2字节,得到YQ,BASE64要求4个字节 补两个 ==
得到 YQ==
文章参考:http://www.cnblogs.com/caoyc/p/5794720.html