UTF=8转换表
1) 0 ~ 7f 0xxxx xxxx
2) 80 ~ 7ff 110x xxxx 10xx xxxx
3) 800 ~ ffff 1110 xxxx 10xx xxxx 10xx xxxx
4) 1 0000 ~ 1f ffff 1111 0xxx 10xx xxxx 10xx xxxx 10xx xxxx
5) 20 0000 ~ 3ff ffff 1111 10xx 10xx xxxx 10xx xxxx 10xx xxxx 10xx xxxx
例:
U+20AC ->>0xE282AC
0x20AC 在 800 ~ ffff 。用模板3)
2 0 A C
-----------------------------------------
0010 0000 1010 1110 按位展开
-----------------------------------------
1110 xxxx 10xx xxxx 10xx xxxx 模板
|||| || |||| || ||||
0010 00 0010 10 1110
-----------------------------------------
1110 0010 1000 0010 1010 1110 结果
e 2 8 2 a c
-----------------------------------------
结果为\xe2\x82\xac