“深度学习“汉字国标码GB2312

最新推荐文章于 2024-04-12 13:13:25 发布

谛听学院

最新推荐文章于 2024-04-12 13:13:25 发布

阅读量4.9k

点赞数 3

本文链接：https://blog.csdn.net/junjuan131499/article/details/118694989

版权

GB2312编码汉字处理 JAVA实现字符编码 ASCII兼容

关键词由CSDN通过智能技术生成

本文详细介绍了GB2312编码标准，包括其收录的汉字数量和分布，以及如何处理汉字与ASCII码的兼容问题。通过JAVA代码展示了如何生成GB2312编码的汉字，主要涉及区位码、国际码和机内码的转换过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

GB 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符.
GB 2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%
对于人名、古汉语等方面出现的罕用字,GB 2312不能处理,需要使用GBK及GB18030汉字编码

一.规则

每个汉字有个二进制编码,叫汉字国标码.
GB2312-80 GB2312将代码表分为94个区,对应第一字节;每个区94个位,对应第二字节.
区位码:十进制区码+十进制位码
国际码(GB):(十六进制区码+20H)+(十六进制位码+20H)
机内码:将国标码的每个字节都加上128,即将两个字节的最高位由0改1,其余7位不变
16-55区为一级汉字,按拼音排序;56-87区为二级汉字,按部首/笔画排序

二.JAVA代码

public final static int DRI16 = 16;
	public final static int DRI55 = 55;
	public final static int DRI56 = 56;
	public final static int DRI87 = 87;
	public final static int MIN_POS = 1;
	public final static int MAX_POS = 94;

	public static void main(String[] args) throws UnsupportedEncodingException {
		/** 定义字节数组,长度为2,分别用于存放高位字节和地位字节 */
		int index = 1;
		byte[] gbBytes = new byte[2];
		for (int d = DRI16; d <= DRI55; d++) {
			/** 第一个字节(高位字节)+20H即十进制32 */
			int high_pos = d + 32;
			/** 第一个字节(高位字节)+128 */
			high_pos += 128;
			/** 给第一个字节(高位字节)赋值 */
			gbBytes[0] = (byte) high_pos;
			for (int p = MIN_POS; p <= MAX_POS; p++) {
				/** 第二个字节(低位字节)+20H即十进制32 */
				int low_pos = p + 32;
				/** 第二个字节(地位字节)+128 */
				low_pos += 128;
				/** 第二个字节(地位字节)赋值 */
				gbBytes[1] = (byte) low_pos;
				/** 构造汉字字符并输出,下面就是见证奇迹的时刻 */
				String ccStr = new String(gbBytes, "GB2312");
				if (!(d == DRI55 && p >= 90)) {
					System.out.print("第" + (index++) + "个汉字是:");
					System.out.println(ccStr);
				}
			}
		}
		for (int d = DRI56; d <= DRI87; d++) {
			/** 第一个字节(高位字节)+20H即十进制32 */
			int high_pos = d + 32;
			/** 第一个字节(高位字节)+128 */
			high_pos += 128;
			/** 给第一个字节(高位字节)赋值 */
			gbBytes[0] = (byte) high_pos;
			for (int p = MIN_POS; p <= MAX_POS; p++) {
				/** 第二个字节(低位字节)+20H即十进制32 */
				int low_pos = p + 32;
				/** 第二个字节(低位字节)+128 */
				low_pos += 128;
				/** 第二个字节(低位字节)赋值 */  
				gbBytes[1] = (byte) low_pos;
				/** 构造汉字字符并输出,下面就是见证奇迹的时刻 */
				String ccStr = new String(gbBytes, "GB2312");
				System.out.print("第" + (index++) + "个汉字是:");
				System.out.println(ccStr);
			}
		}
	}