UTF-8是Unicode编码规范的一种实现。依据网上的资料来阅读其编码规则,感觉甚难读懂,只能慢慢体会。下面仅介绍一点自己的领悟。
UTF-8中每个字符所占的字节数是不定的,从1到4个字节都可能。
解析字节时所用的规则:
0xxxxxxx,如果是这样的01串,也就是以0开头后面是啥就不用管了XX代表任意bit.就表示把一个字节做为一个单元.就跟ASCII完全一样.
110xxxxx 10xxxxxx.如果是这样的格式,则把两个字节当一个单元
1110xxxx 10xxxxxx 10xxxxxx 如果是这种格式则是三个字节当一个单元.
百度百科上说: