UTF-8 字符集,查看百科可知,理论上可达到6个字节长,实际中使用最多4个字节。ascii字符使用1个字节表示, 中文一般使用3个字节来表示.
字符
字符 | ASCII | Unicode | UTF-8 |
---|---|---|---|
A | 01000001 | 00000000 01000001 | 01000001 |
中 | NO | 01001110 00101101 | 11100100 10111000 10101101 |
utf-8解码是一个字节的解码,如果第一个字节的第一位为0,则为单字节字符,如果第一字节,从第一位开始,连续有几个1,就表示该字符占用几个字节。
‘中’的utf-8编码,第一个字节有3个连续的1,则占用3个字符,如此系统即可正确解析。