我们知道,在我们目前使用的计算机系统中,所有的数据都是以二进制形式表示的,而中文字符包含了大量的汉字、标点符号和其他特殊字符,需要通过编码方式将其转换为二进制数据进行处理。其中,中文编码是将中文字符表示为计算机可以理解和处理的二进制数据的过程。
常见的中文编码方式有:GB2312、GBK、GB18030、Unicode。
在互联网应用中我们一般使用Unicode编码方式,所以本文就是通过遍历Unicode编码并把编码转换为字符,从而获取所有汉字。
在Unicode编码中,汉字的编码范围:0x4e00 ~ 0x9fa5
两个相关函数:
ord()函数:查看字符对应的编码
chr()函数:将编码处理成对应的字符
具体实现所有汉字:
for j in range(0x4e00, 0x6fa5 + 1):
print(chr(j), end='')