提取汉字的首字母

最新推荐文章于 2023-05-11 17:01:51 发布

weixin_34272308

最新推荐文章于 2023-05-11 17:01:51 发布

阅读量218

点赞数

文章标签： javascript java ViewUI

原文链接：https://my.oschina.net/yqz/blog/871668

版权

为什么80%的码农都做不了架构师？>>>

原理

1980年，为了使每个汉字有一个全国统一的代码，我国颁布了汉字编码的国家标准：GB2312-80《信息交换用汉字编码字符集——基本集》，这个字符集是目前国内所有汉字系统的统一标准。它规定了用两个字节来表示一个汉字，每个字节都只能使用低7位，共有128*128种状态，又由于ASCII中的控制代码在汉字系统中也要使用，所以只剩下94*94=8836种状态用来表示国标码规定的6763个汉字和682个全角字符。每个字符都对应了唯一的区位码、国标码和机内码。

区位码

区位码是一个四位的十进制数，前两位叫做区码，后两位叫做位码。区位码共有94个区（行），每个区有94个位（列）。

1~9区	特殊字符区
10~15区	用户自定义区
16~55区	一级汉字
56~87区	二级汉字

为了处理与存储的方便，每个汉字的区号和位号在计算机内部分别用一个字节表示。如，汉字“学”的区号为49，位号为07，区位码为4907D，对应的二进制表示为00110001 00000111

区位码不能用于通信，因为它可能与通信使用的控制码（00H~1FH）发生冲突。

国标码

为了进行汉字通信，将区位码的区码和位码都加20H，避开了控制码，就得到了国标码。国标码用十六进制表示，如，汉字“学”的国标码为5127H。

机内码

由于汉字与英文字符通常混用，所以汉字信息如不加以特殊标识就会与ASCII码混淆，如汉字“学”的国标码为51 27H，在ASCII中代表“Q”和“‘”。此问题的解决方法之一是将汉字编码每字节的最高位置为1，即国标码两字节分别+80H，则汉字“学”的机内码为D1A7H。

GBK

GBK是汉字编码标准之一，全称《汉字内码扩展规范》。GBK向下完全兼容GB2312-80编码，另外还支持部分中文姓氏，中文繁体，日文假名，还包括希腊字母以及俄语字母等。

GBK的中文编码是双字节来表示的，英文编码使用ASCII码表示的，即用单字节表示。但GBK编码表中也有英文字符的双字节表示形式，所以英文字母可以有两种GBK表示方式。为区分中英文，将汉字最高位定为1，英文最高位定为0。当用GBK解码时，若高字节最高位为0，则用ASCII码表解码；若高字节最高位为1，则用GBK编码表解码。

GBK的编码范围为高字节81-FE(126个)，低字节40-FE(191个)，总共有24066(126*191)种状态，共收入218886个汉字和图形符号，其中汉字（包括部首和构件）21003个，图形符号883个。

知识点：GB是涵盖和扩展了GB2312的字符超集，每个字符使用两个字节表示。在实现上，字符对应的字节值是机内码，而在字符集中对应的编号则是区位码，机内码每个字节分别比区位码的每个字节大了160（即0x80+0x20）。有机内码推算出区位码，根据区位码中汉字是按其拼音首字母排序的规则，查找其拼音首字母。

实现

import java.io.UnsupportedEncodingException;
import java.util.Arrays;

public class ChineseCharacterHelper {
	static final int GB_SP_DIFF = 160;
	// 存放国标一级汉字不同读音的起始区位码
	static final int[] secPosValueList = { 1601, 1637, 1833, 2078, 2274, 2302, 2433, 2594, 2787, 3106, 3212, 3472, 3635,
			3722, 3730, 3858, 4027, 4086, 4390, 4558, 4684, 4925, 5249, 5600 };
	// 存放国标一级汉字不同读音的起始区位码对应读音
	static final char[] firstLetter = { 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q',
			'r', 's', 't', 'w', 'x', 'y', 'z' };

	public static String getSpells(String characters) {
		StringBuffer buffer = new StringBuffer();
		for (int i = 0; i < characters.length(); i++) {

			char ch = characters.charAt(i);
			if ((ch >> 7) == 0) {
				// 判断是否为汉字，如果左移7为为0就不是汉字，否则是汉字
			} else {
				char spell = getFirstLetter(ch);
				buffer.append(String.valueOf(spell));
			}
		}
		return buffer.toString();
	}

	// 获取一个汉字的首字母
	public static Character getFirstLetter(char ch) {

		byte[] uniCode = null;
		try {
			uniCode = String.valueOf(ch).getBytes("GBK");
		} catch (UnsupportedEncodingException e) {
			e.printStackTrace();
			return null;
		}
		if (uniCode[0] < 128 && uniCode[0] > 0) { // 非汉字
			return null;
		} else {
			return convert(uniCode);
		}
	}

	/**
	 * 获取一个汉字的拼音首字母。 GB码两个字节分别减去160，转换成10进制码组合就可以得到区位码
	 * 例如汉字“你”的GB码是0xC4/0xE3，分别减去0xA0（160）就是0x24/0x43
	 * 0x24转成10进制就是36，0x43是67，那么它的区位码就是3667，在对照表中读音为‘n’
	 */
	static char convert(byte[] bytes) {
		char result = '-';
		int secPosValue = 0;
		int i;
		for (i = 0; i < bytes.length; i++) {
			bytes[i] -= GB_SP_DIFF;
		}
		secPosValue = bytes[0] * 100 + bytes[1];
		for (i = 0; i < 23; i++) {
			if (secPosValue >= secPosValueList[i] && secPosValue < secPosValueList[i + 1]) {
				result = firstLetter[i];
				break;
			}
		}
		return result;
	}

	public static void main(String[] args) {

		try {
			System.out.println(0x80 + 0x20);
			Arrays.stream(net.sourceforge.pinyin4j.PinyinHelper.toGwoyeuRomatzyhStringArray('好'))
					.forEach(p -> System.out.println(p));

			byte[] bs = String.valueOf("学").getBytes("GBK");
			for (byte b : bs) {
				b = (byte) (b - 0x80 - 0x20);
				System.out.println(b + "=" + Integer.toHexString(b));
			}

			System.out.println(
			// getSpells("获取中文的首字母")
			);
		} catch (UnsupportedEncodingException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
}

最后

推荐使用很大很强大maven的汉语拼音帮助库

<dependency>
    <groupId>com.belerweb</groupId>
    <artifactId>pinyin4j</artifactId>
    <version>2.5.1</version>
</dependency>

转载于:https://my.oschina.net/yqz/blog/871668

weixin_34272308

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
提取汉字的首字母

为什么80%的码农都做不了架构师？>>> ...
复制链接

扫一扫