1、GB18030 编码
GB18030编码采用单字节、双字节、四字节分段编码方案,具体码位见下文。GB18030向下兼容GBK和GB2312编码。
国家标准GB18030-2005《信息技术 中文编码字符集》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准,是我国计算机系统必须遵循的基础性标准之一。 GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。
GB18030-2000编码标准《信息技术 汉字编码字符集 基本集的扩充》是由信息产业部和国家质量技术监督局在2000年3月17日联合发布的,并且将作为一项国家标准在2001年的1月正式强制执行。GB18030-2000仅规定了常用非汉字符号和27533个汉字(包括部首、部件等)的编码。
GB18030-2005《信息技术 中文编码字符集》是以汉字为主并包含多种我国少数民族文字的超大型中文编码字符集,其中收入汉字70000余个。在GB18030-2000的基础上增加了42711个汉字和多种我国少数民族文字的编码(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)。增加的这些内容是推荐性的,原GB18030-2000中的内容是强制性的,市场上销售的产品必须符合。故GB18030-2005为部分强制性标准,自发布之日起代替GB18030-2000。
GB18030-2000字汇
GB18030-2000标准收录的字符分别以单字节、双字节和四字节编码。
1、单字节部分
本标准中,单字节的部分收录了GB 11383的0x00到0x7F全部128个字符及单字节编码的欧元符号。
2、双字节部分
本标准中,双字节的部分收录内容如下:
GB 13000.1的全部CJK统一汉字字符。
GB 13000.1的CJK兼容区挑选出来的21个汉字。
GB 13000.1中收录而GB 2312未收录的我国台湾地区使用的图形字符139个。
GB 13000.1收录的其它字符31个。
GB 2312中的非汉字符号。
GB 12345 的竖排标点符号19个。
GB 2312未收录的10个小写罗马数字。
GB 2312未收录的带音调的汉语拼音字母5个以及ɑ 和ɡ 。
汉字数字“〇”。
表意文字描述符13个。
增补汉字和部首/构件80个。
双字节编码的欧元符号。
3 、四字节部分
本标准的四字节的部分,收录了上述双字节字符之外的,包括CJK统一汉字扩充A在内的GB 13000.1 中的全部字符。
GB18030-2005字汇
GB18030-2005标准收录的字符分别以单字节、双字节或四字节编码。
1、单字节部分
本标准中,单字节的部分收录了GB/T 11383-1989的0x00到0x7F全部128个字符。
2、双字节部分
本标准中,双字节的部分收录内容如下:
GB 13000.1-1993的全部CJK统一汉字字符。
GB 13000.1-1993的CJK兼容区挑选出来的21个汉字。
GB 13000.1-1993中收录而GB 2312未收录的我国台湾地区使用的图形字符139个。
GB 13000.1-1993收录的其它字符31个。
GB 2312中的非汉字符号。
GB 12345 的竖排标点符号19个。
GB 2312未收录的10个小写罗马数字。
GB 2312未收录的带音调的汉语拼音字母5个以及ɑ 和ɡ 。
汉字数字“〇”。
表意文字描述符13个。
对GB 13000.1-1993增补的汉字和部首/构件80个。
双字节编码的欧元符号。
3、四字节部分
本标准的四字节的部分,收录了上述双字节字符之外的,GB 13000的CJK统一汉字扩充A、CJK统一汉字扩充B和已经在GB13000中编码的我国少数民族文字的字符。
GB18030-2005最主要的变化是增加了CJK统一汉字扩充B。它还去掉了单字节编码的欧元符号0x80)。
GB18030有1611668个码位,在GB18030-2005中定义了76556个字符。随着我国汉字整理和编码研究工作的不断深入,以及国际标准ISO/IEC 10646的不断发展,GB18030所收录的字符将在新版本中增加。
GB18030-2000汉字
类别
|
码位范围
|
码位数
|
字符数
|
字符类型
|
双字节部分
|
第一字节0xB0-0xF7
|
6768
|
6763
|
汉字
|
第二字节0xA1-0xFE
| ||||
第一字节0x81-0xA0
|
6080
|
6080
|
汉字
| |
第二字节0x40-0xFE
| ||||
第一字节0xAA-0xFE
|
8160
|
8160
|
汉字
| |
第二字节0x40-0xA0
| ||||
四字节部分
|
第一字节0x81-0x82
|
6530
|
6530
|
CJK统一汉字扩充A
|
第二字节0x30-0x39
| ||||
第三字节0x81-0xFE | ||||
第四字节0x30-0x39
|
GB18030-2005汉字
类别
|
码位范围
|
码位数
|
字符数
|
字符类型
|
双字节部分
|
第一字节0xB0-0xF7
|
6768
|
6763
|
汉字
|
第二字节0xA1-0xFE
| ||||
第一字节0x81-0xA0
|
6080
|
6080
|
汉字
| |
第二字节0x40-0xFE
| ||||
第一字节0xAA-0xFE
|
8160
|
8160
|
汉字
| |
第二字节0x40-0xA0
| ||||
四字节部分
|
第一字节0x81-0x82
|
6530
|
6530
|
CJK统一汉字扩充A
|
第二字节0x30-0x39
| ||||
第三字节0x81-0xFE
| ||||
第四字节0x30-0x39
| ||||
第一字节0x95-0x98 |
42711
|
42711
|
CJK统一汉字扩充B
| |
第二字节0x30-0x39 | ||||
第三字节0x81-0xFE | ||||
第四字节0x30-0x39
|
GB18030码位分配
GB18030编码采用单字节、双字节和四字节三种方式对字符编码。
- 单字节部分采用GB/T 11383的编码结构与规则,使用0x00至0x7F码位(对应ASCII码位)。
- 双字节部分,首字节码位从0x81至0xFE,尾字节码位分别是0x40至0x7E和0x80至0xFE。
- 四字节部分采用GB/T 11383未采用的0x30到0x39作为对双字节编码扩充的后缀,这样扩充的四字节编码,其范围为0x81308130到0xFE39FE39。其中第一、三个字节编码码位均为0x81至0xFE,第二、四个字节编码码位均为0x30至0x39。
2、UNICODE
Unicode 字符编码表|汉字Unicode编码的区间为:0x4E00→0x9FA5(转)
0x00-0x7F的字符,用单个字节来表示;
0x80-0x7FF的字符用两个字节表示;
0x800-0xFFFF的字符用3字节表示;
汉字的unicode范围是:0x4E00~0x9FA5
其实这个范围还包括了中,日,韩的字符。
3、ASCII
标准表
Bin(二进制)
| Oct(八进制) |
Dec(十进制)
|
Hex(十六进制)
|
缩写/字符
|
解释
|
0000 0000
|
0
|
0
|
00
|
NUL(null)
|
空字符
|
0000 0001
|
1
|
1
|
01
|
SOH(start of headline)
|
标题开始
|
0000 0010
|
2
|
2
|
02
|
STX (start of text)
|
正文开始
|
0000 0011
|
3
|
3
|
03
|
ETX (end of text)
|
正文结束
|
0000 0100
|
4
|
4
|
04
|
EOT (end of transmission)
|
传输结束
|
0000 0101
|
5
|
5
|
05
|
ENQ (enquiry)
|
请求
|
0000 0110
|
6
|
6
|
06
|
ACK (acknowledge)
|
收到通知
|
0000 0111
|
7
|
7
|
07
|
BEL (bell)
|
响铃
|
0000 1000
|
10
|
8
|
08
|
BS (backspace)
|
退格
|
0000 1001
|
11
|
9
|
09
|
HT (horizontal tab)
|
水平制表符
|
0000 1010
|
12
|
10
|
0A
|
LF (NL line feed, new line)
|
换行键
|
0000 1011
|
13
|
11
|
0B
|
VT (vertical tab)
|
垂直制表符
|
0000 1100
|
14
|
12
|
0C
|
FF (NP form feed, new page)
|
换页键
|
0000 1101
|
15
|
13
|
0D
|
CR (carriage return)
|
回车键
|
0000 1110
|
16
|
14
|
0E
|
SO (shift out)
|
不用切换
|
0000 1111
|
17
|
15
|
0F
|
SI (shift in)
|
启用切换
|
0001 0000
|
20
|
16
|
10
|
DLE (data link escape)
|
数据链路转义
|
0001 0001
|
21
|
17
|
11
|
DC1 (device control 1)
|
设备控制1
|
0001 0010
|
22
|
18
|
12
|
DC2 (device control 2)
|
设备控制2
|
0001 0011
|
23
|
19
|
13
|
DC3 (device control 3)
|
设备控制3
|
0001 0100
|
24
|
20
|
14
|
DC4 (device control 4)
|
设备控制4
|
0001 0101
|
25
|
21
|
15
|
NAK (negative acknowledge)
|
拒绝接收
|
0001 0110
|
26
|
22
|
16
|
SYN (synchronous idle)
|
同步空闲
|
0001 0111
|
27
|
23
|
17
|
ETB (end of trans. block)
|
结束传输块
|
0001 1000
|
30
|
24
|
18
|
CAN (cancel)
|
取消
|
0001 1001
|
31
|
25
|
19
|
EM (end of medium)
|
媒介结束
|
0001 1010
|
32
|
26
|
1A
|
SUB (substitute)
|
代替
|
0001 1011
|
33
|
27
|
1B
|
ESC (escape)
|
换码(溢出)
|
0001 1100
|
34
|
28
|
1C
|
FS (file separator)
|
文件分隔符
|
0001 1101
|
35
|
29
|
1D
|
GS (group separator)
|
分组符
|
0001 1110
|
36
|
30
|
1E
|
RS (record separator)
|
记录分隔符
|
0001 1111
|
37
|
31
|
1F
|
US (unit separator)
|
单元分隔符
|
0010 0000
|
40
|
32
|
20
|
(space)
|
空格
|
0010 0001
|
41
|
33
|
21
|
!
| 叹号 |
0010 0010
|
42
|
34
|
22
|
"
| 双引号 |
0010 0011
|
43
|
35
|
23
|
#
| 井号 |
0010 0100
|
44
|
36
|
24
|
$
| 美元符 |
0010 0101
|
45
|
37
|
25
|
%
| 百分号 |
0010 0110
|
46
|
38
|
26
|
&
| 和号 |
0010 0111
|
47
|
39
|
27
|
'
| 闭单引号 |
0010 1000
|
50
|
40
|
28
|
(
|
开括号
|
0010 1001
|
51
|
41
|
29
|
)
|
闭括号
|
0010 1010
|
52
|
42
|
2A
|
*
| 星号 |
0010 1011
|
53
|
43
|
2B
|
+
| 加号 |
0010 1100
|
54
|
44
|
2C
|
,
| 逗号 |
0010 1101
|
55
|
45
|
2D
|
-
| 减号/破折号 |
0010 1110
|
56
|
46
|
2E
|
.
| 句号 |
00101111
|
57
|
47
|
2F
|
/
| 斜杠 |
00110000
|
60
|
48
|
30
|
0
| 数字0 |
00110001
|
61
|
49
|
31
|
1
| 数字1 |
00110010
|
62
|
50
|
32
|
2
| 数字2 |
00110011
|
63
|
51
|
33
|
3
| 数字3 |
00110100
|
64
|
52
|
34
|
4
| 数字4 |
00110101
|
65
|
53
|
35
|
5
| 数字5 |
00110110
|
66
|
54
|
36
|
6
| 数字6 |
00110111
|
67
|
55
|
37
|
7
| 数字7 |
00111000
|
70
|
56
|
38
|
8
| 数字8 |
00111001
|
71
|
57
|
39
|
9
| 数字9 |
00111010
|
72
|
58
|
3A
|
:
| 冒号 |
00111011
|
73
|
59
|
3B
|
;
| 分号 |
00111100
|
74
|
60
|
3C
|
<
| 小于 |
00111101
|
75
|
61
|
3D
|
=
| 等号 |
00111110
|
76
|
62
|
3E
|
>
| 大于 |
00111111
|
77
|
63
|
3F
|
?
| 问号 |
01000000
|
100
|
64
|
40
|
@
| 电子邮件符号 |
01000001
|
101
|
65
|
41
|
A
| 大写字母A |
01000010
|
102
|
66
|
42
|
B
| 大写字母B |
01000011
|
103
|
67
|
43
|
C
| 大写字母C |
01000100
|
104
|
68
|
44
|
D
| 大写字母D |
01000101
|
105
|
69
|
45
|
E
| 大写字母E |
01000110
|
106
|
70
|
46
|
F
| 大写字母F |
01000111
|
107
|
71
|
47
|
G
| 大写字母G |
01001000
|
110
|
72
|
48
|
H
| 大写字母H |
01001001
|
111
|
73
|
49
|
I
| 大写字母I |
01001010
|
112
|
74
|
4A
|
J
| 大写字母J |
01001011
|
113
|
75
|
4B
|
K
| 大写字母K |
01001100
|
114
|
76
|
4C
|
L
| 大写字母L |
01001101
|
115
|
77
|
4D
|
M
| 大写字母M |
01001110
|
116
|
78
|
4E
|
N
| 大写字母N |
01001111
|
117
|
79
|
4F
|
O
| 大写字母O |
01010000
|
120
|
80
|
50
|
P
| 大写字母P |
01010001
|
121
|
81
|
51
|
Q
| 大写字母Q |
01010010
|
122
|
82
|
52
|
R
| 大写字母R |
01010011
|
123
|
83
|
53
|
S
| 大写字母S |
01010100
|
124
|
84
|
54
|
T
| 大写字母T |
01010101
|
125
|
85
|
55
|
U
| 大写字母U |
01010110
|
126
|
86
|
56
|
V
| 大写字母V |
01010111
|
127
|
87
|
57
|
W
| 大写字母W |
01011000
|
130
|
88
|
58
|
X
| 大写字母X |
01011001
|
131
|
89
|
59
|
Y
| 大写字母Y |
01011010
|
132
|
90
|
5A
|
Z
| 大写字母Z |
01011011
|
133
|
91
|
5B
|
[
| 开方括号 |
01011100
|
134
|
92
|
5C
|
\
| 反斜杠 |
01011101
|
135
|
93
|
5D
|
]
| 闭方括号 |
01011110
|
136
|
94
|
5E
|
^
| 脱字符 |
01011111
|
137
|
95
|
5F
|
_
| 下划线 |
01100000
|
140
|
96
|
60
|
`
| 开单引号 |
01100001
|
141
|
97
|
61
|
a
| 小写字母a |
01100010
|
142
|
98
|
62
|
b
| 小写字母b |
01100011
|
143
|
99
|
63
|
c
| 小写字母c |
01100100
|
144
|
100
|
64
|
d
| 小写字母d |
01100101
|
145
|
101
|
65
|
e
| 小写字母e |
01100110
|
146
|
102
|
66
|
f
| 小写字母f |
01100111
|
147
|
103
|
67
|
g
| 小写字母g |
01101000
|
150
|
104
|
68
|
h
| 小写字母h |
01101001
|
151
|
105
|
69
|
i
| 小写字母i |
01101010
|
152
|
106
|
6A
|
j
| 小写字母j |
01101011
|
153
|
107
|
6B
|
k
| 小写字母k |
01101100
|
154
|
108
|
6C
|
l
| 小写字母l |
01101101
|
155
|
109
|
6D
|
m
| 小写字母m |
01101110
|
156
|
110
|
6E
|
n
| 小写字母n |
01101111
|
157
|
111
|
6F
|
o
| 小写字母o |
01110000
|
160
|
112
|
70
|
p
| 小写字母p |
01110001
|
161
|
113
|
71
|
q
| 小写字母q |
01110010
|
162
|
114
|
72
|
r
| 小写字母r |
01110011
|
163
|
115
|
73
|
s
| 小写字母s |
01110100
|
164
|
116
|
74
|
t
| 小写字母t |
01110101
|
165
|
117
|
75
|
u
| 小写字母u |
01110110
|
166
|
118
|
76
|
v
| 小写字母v |
01110111
|
167
|
119
|
77
|
w
| 小写字母w |
01111000
|
170
|
120
|
78
|
x
| 小写字母x |
01111001
|
171
|
121
|
79
|
y
| 小写字母y |
01111010
|
172
|
122
|
7A
|
z
| 小写字母z |
01111011
|
173
|
123
|
7B
|
{
| 开花括号 |
01111100
|
174
|
124
|
7C
|
|
| 垂线 |
01111101
|
175
|
125
|
7D
|
}
| 闭花括号 |
01111110
|
176
|
126
|
7E
|
~
| 波浪号 |
01111111
|
177
|
127
|
7F
|
DEL (delete)
|
删除
|