目录
BOM
自己电脑(小端)
服务器(大端)
举例一个字符编码为:
关于BOM,详情参照博客:Unicode中的BOM
字节
至顶部
下图是内存中的8bit,即1字节,1Byte,1B
1KB(Kilobyte) = 210 B = 1024 B;
1MB(Megabyte) = 210 KB = 1024 KB = 220 B;
1GB(Gigabyte) = 210 MB = 1024 MB = 230 B;
1TB(Trillionbyte) = 210 GB = 1024 GB = 240 B;
1PB(Petabyte) = 210 TB = 1024 TB = 250 B;
1EB(Exabyte) = 210 PB = 1024 PB = 260 B;
1ZB(Zettabyte) = 210 EB = 1024 EB = 270 B;
1YB(YottaByte) = 210 ZB = 1024 ZB = 280 B;
1BB(Brontobyte) = 210 YB = 1024 YB = 290 B;
1NB(NonaByte) = 210 BB = 1024 BB = 2100 B;
1DB(DoggaByte) = 210 NB = 1024 NB = 2110 B;
UTF-8编码
- 0开头,表示1字节字符,7位编码,0x00~0x7F
- 110开头,表示2字节字符,11位编码,0x080~0x7FF
- 1110开头,表示3字节字符,16位编码,0x0800~0xFFFF
- 11110开头,表示4字节字符,21位编码,0x010000~0x10FFFF
- 10开头,表示编码的非首字节的开头
备注:在UTF-8带BOM的版本中,BOM为EF BB BF。
UTF-16编码
- UCS(辅助字符平面)出现之前,2字节编码,从0x0000到0xD700,为基本字符平面(用于编码两字节字符的平面)
- UCS(辅助字符平面)出现之后,4字节编码
UTF-16编码 BOM
大端编码的BOM为:FE FF
小端编码的BOM为:FF FE
UTF-16BE编码
至顶部
大端编码,高位的字节放在低地址表示。
UTF-16LE编码
至顶部
小端编码,高位的字节放在高地址表示。
UTF-32编码
UTF-32编码 BOM
大端编码的BOM为:0000FEFF
小端编码的BOM为:FFFE0000
UTF-32BE编码
至顶部
大端编码,高位的字节放在低地址表示。
UTF-32LE编码
至顶部
小端编码,高位的字节放在高地址表示。
UNICODE
至顶部
CSDN博客:Java中弄懂Unicode和UTF-8编码方式
下面是汉字 Unicode 编码范围:
字符集 | 字数 | Unicode 编码 |
基本汉字 | 20902字 | 4E00-9FA5 |
基本汉字补充 | 74字 | 9FA6-9FEF |
扩展A | 6582字 | 3400-4DB5 |
扩展B | 42711字 | 20000-2A6D6 |
扩展C | 4149字 | 2A700-2B734 |
扩展D | 222字 | 2B740-2B81D |
扩展E | 5762字 | 2B820-2CEA1 |
扩展F | 7473字 | 2CEB0-2EBE0 |
扩展G | 4939字 | 30000-3134A |
康熙部首 | 214字 | 2F00-2FD5 |
部首扩展 | 115字 | 2E80-2EF3 |
兼容汉字 | 477字 | F900-FAD9 |
兼容扩展 | 542字 | 2F800-2FA1D |
PUA(GBK)部件 | 81字 | E815-E86F |
部件扩展 | 452字 | E400-E5E8 |
PUA增补 | 207字 | E600-E6CF |
汉字笔画 | 36字 | 31C0-31E3 |
汉字结构 | 12字 | 2FF0-2FFB |
汉语注音 | 43字 | 3105-312F |
注音扩展 | 22字 | 31A0-31BA |
〇 | 1字 | 3007 |