gb2312编码学习

最新推荐文章于 2024-11-03 11:01:20 发布

cjz37323

最新推荐文章于 2024-11-03 11:01:20 发布

阅读量129

点赞数

文章标签： java

import java.io.UnsupportedEncodingException;

public class AbstractDictionary {

/**

* 第一个汉字为“啊”，他前面有15个区，共15*94个字符

public static final int GB2312_FIRST_CHAR = 1410;

/**

* GB2312字符集中01~87的字符集才可能有效，共8178个

public static final int GB2312_CHAR_NUM = 87 * 94;

/**

* 词库文件中收录了6768个汉字的词频统计

public static final int CHAR_NUM_IN_FILE = 6768;

// =====================================================

// code +0 +1 +2 +3 +4 +5 +6 +7 +8 +9 +A +B +C +D +E +F

// B0A0 啊阿埃挨哎唉哀皑癌蔼矮艾碍爱隘

// B0B0 鞍氨安俺按暗岸胺案肮昂盎凹敖熬翱

// B0C0 袄傲奥懊澳芭捌扒叭吧笆八疤巴拔跋

// B0D0 靶把耙坝霸罢爸白柏百摆佰败拜稗斑

// B0E0 班搬扳般颁板版扮拌伴瓣半办绊邦帮

// B0F0 梆榜膀绑棒磅蚌镑傍谤苞胞包褒剥

// =====================================================

// GB2312 字符集的区位分布表：

// 区号字数字符类别

// 01 94 一般符号

// 02 72 顺序号码

// 03 94 拉丁字母

// 04 83 日文假名

// 05 86 Katakana

// 06 48 希腊字母

// 07 66 俄文字母

// 08 63 汉语拼音符号

// 09 76 图形符号

// 10-15 备用区

// 16-55 3755 一级汉字，以拼音为序

// 56-87 3008 二级汉字，以笔划为序

// 88-94 备用区

// ======================================================

/**

* GB2312 共收录有 7445 个字符，其中简化汉字 6763 个，字母和符号 682 个。

* GB2312 将所收录的字符分为 94 个区，编号为 01 区至 94 区；每个区收录 94 个字符，编号为 01 位至 94

* 位，01为起始与0xA1，94位处于0xFE。GB2312 的每一个字符都由与其唯一对应的区号和位号所确定。例如：汉字“啊”，编号为 16 区

* 01 位。

/**

* @param ccid

* @return

public static String getCCByGB2312Id(int ccid) {

if (ccid GB2312_CHAR_NUM)

return "";

int cc1 = ccid / 94 + 161;

int cc2 = ccid % 94 + 161;

byte[] buffer = new byte[2];

buffer[0] = (byte) cc1;

buffer[1] = (byte) cc2;

try {

String cchar = new String(buffer, "GB2312");

return cchar;

} catch (UnsupportedEncodingException e) {

return "";

}

/**

* 根据输入的Unicode字符，获取它的GB2312编码或者ascii编码，

* @param ch

* 输入的GB2312中文字符或者ASCII字符(128个)

* @return ch在GB2312中的位置，-1表示该字符不认识

public static short getGB2312Id(char ch) {

try {

byte[] buffer = Character.toString(ch).getBytes("GB2312");

if (buffer.length != 2) {

// 正常情况下buffer应该是两个字节，否则说明ch不属于GB2312编码，故返回'?'，此时说明不认识该字符

return -1;

}

int b0 = (int) (buffer[0] & 0x0FF) - 161; // 编码从A1开始，因此减去0xA1=161

int b1 = (int) (buffer[1] & 0x0FF) - 161; // 第一个字符和最后一个字符没有汉字，因此每个区只收16*6-2=94个汉字

return (short) (b0 * 94 + b1);

} catch (UnsupportedEncodingException e) {

e.printStackTrace();

}

return -1;

}

public static void main(String[] argv) {

System.out.println("ok");

System.out.println(getCCByGB2312Id(1410));// 根据编码输出汉字"啊"

System.out.println(getGB2312Id('啊'));// 根据编码输出汉字"啊"

}

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/7204674/viewspace-623953/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/7204674/viewspace-623953/

cjz37323

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫