如何区别文本是BIG5还是GB?

原创 2000年12月04日 10:50:00
关于GB与BIG5码的判别,没有100%可靠的方法。但是从两个编码系统汉字的分布来看,
还有可以作一定的判断的。 

GB码的编码范围是首字节A1-F7,尾字节A1-FE,而且首字节A1-A9是符号区,AA-AF这
一段没有定义。BIG5码的编码范围是首字节A1-F9,尾字节分两段,分别是40-7E及
A1-FE,首字节A1-A3是符号区,A4-C5是常用汉字区。 

这样我们可以找到几个依据: 

1)尾字节40-7E是BIG5码特有的,可以以此来判别,但是现在GBK在这个码区也定义了
字符,不过这些汉字的使用频度不高,所以仍然可以作为一条依据,但无法保证100%
正确; 

2)首字节A4-A9在GB中为日文假名、希腊字母、俄文字母和制表符,正常文本中很少
出现,AA-AF则根本没有定义,但这个范围却是BIG5码的常用汉字,所以如果文本中
频繁出现这个范围的码,也可以认为是BIG5码。尤其是首字节位于AA-AF之间,尾字
节位于A1-FE的,几乎100%是BIG5码无疑,因为即使在GBK中,这个范围也是没有定
义的。 

为了提高识别的正确率,最好多种判据同时使用。另外还可以通过分析汉字出现的频
率,或查找某些常用的词组来判别。因为做起来比较复杂,就不多说了。 

首字节C6-D7,尾字节A1-FE在GB中属于一级字库,是常用汉字,而在BIG5中,C6-C7没
有明确定义,但通常用来放日文假名和序号,C8-D7属于罕用汉字区。所以如果这个范
围的码出现较多,可以判别为GB码。 
 
 

BIG5编码, GB编码(GB2312, GBK, ...), Unicode编码, UTF8, WideChar, MultiByte, Char 说明与区别

一. BIG5编码, GB编码(GB2312, GBK, ...), Unicode编码 1.1. BIG5编码 BIG5字集是台湾繁体字集,共包括国标繁体汉字13053个 1.2. GB编码 GB2...
  • cay22
  • cay22
  • 2014年12月31日 13:55
  • 3537

GB码 BIG5码区别是什么?

计算机中表示中文文字的编码方式,GB是简体中文 BIG5是繁体中文的
  • xsj_blog
  • xsj_blog
  • 2016年07月09日 13:29
  • 284

UTF-8与GB与 Big5之间的转换

  • 2012年06月03日 16:24
  • 61KB
  • 下载

如何区别文本是BIG5还是GB?

关于GB与BIG5码的判别,没有100%可靠的方法。但是从两个编码系统汉字的分布来看,还有可以作一定的判断的。 GB码的编码范围是首字节A1-F7,尾字节A1-FE,而且首字节A1-A9是符号区,AA...
  • ghj1976
  • ghj1976
  • 2000年12月04日 10:50
  • 3904

UTF-8和GBK及GB2312的区别

  • 2011年08月27日 17:24
  • 940B
  • 下载

如何区别文本是BIG5还是GB?

2000年12月04日 10:50:00 关于GB与BIG5码的判别,没有100%可靠的方法。但是从两个编码系统汉字的分布来看,还有可以作一定的判断的。 GB码的编码范围是首字节A1-F7,尾...
  • softart
  • softart
  • 2007年10月27日 07:42
  • 235

BIG5到GB的转换技术

中文因为数量太多,所以与英文用ASCII码一个字节表示不同,它使用两个字节来  表示。通过计算这两个字节,我们可以得到其表示的汉字在中   文字库中的位置。读取该位置的若干字节,以获得表示这个汉字的点...
  • hhdsq
  • hhdsq
  • 2002年11月15日 14:03
  • 1021

UTF-8、GB2312、GB18030、GBK和BIG5等字符集编码范围的具体说明

一预备知识  1,字符:字符是抽象的最小文本单位。 它没有固定的形状(可能是一个字形),而且没有值。 “A”是一个字符,“”(德国、法国和许多其他欧洲国家通用货币的标志)也是一个字符。 “中”...
  • u010229420
  • u010229420
  • 2016年10月21日 11:11
  • 330

中文字符编码简介 GB2312/GBK/GB18030/BIG5

1 GB2312-80GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。...
  • liujinchengjx
  • liujinchengjx
  • 2007年03月13日 14:34
  • 13452

汉字简体繁体转换|GB国标码|Big5码

汉字简体GB国标码繁体Big5码互相转换   ←【加入收藏夹】         管理员在2009年8月13日编辑了该文章文章。 --> ...
  • lanndmentt
  • lanndmentt
  • 2013年11月14日 18:02
  • 859
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:如何区别文本是BIG5还是GB?
举报原因:
原因补充:

(最多只允许输入30个字)