C++: BIG5到GB

原创 2000年11月28日 07:24:00
C++: BIG5到GB

(11/03/1999)

   中文因为数量太多,所以与英文用ASCII码一个字节表示不同,它使用两个字节来表示。通过计算这两个字节,我们可以得到其表示的汉字在中文字库中的位置。读取该位置的若干字节,以获得表示这个汉字的点阵信息。有了这些信息,就可以分别在DOS或WINDOWS中显示该汉字。事实上,在文本文件中保存的就是每个汉字对应的两个字节编码,而显示问题由中文操作系统自动解决。

汉字编码并不统一,我们使用的是GB码,而台湾地区使用的是BIG5码。BIG5码文件中保存的是汉字相应的BIG5编码,GB码文件中保存的是汉字相应的GB编码(这也就是“乱码现象”的来由)。所以转换工作的关键是有一个记录每个BIG5编码对应GB编码的码表文件。
第一步 制作码表文件

BIG5码编码规则是这样的:每个汉字由两个字节构成,第一个字节的范围从0X81-0XFE,共126种。第二个字节的范围分别为0X40-0X7E,0XA1-0XFE,共157种。也就是说,利用这两个字节共可定义出 126 * 157=19782种汉字。这些汉字的一部分是我们常用到的,如一、丁,这些字我们称为常用字,其BIG5码的范围为0XA440-0XC671,共5401个。较不常用的字,如滥、调,我们称为次常用字,范围为 0XC940-0XF9FE,共7652个,剩下的便是一些特殊字符。

制作码表文件的原理是这样的:首先将所有的BIG5编码写入一个文件,然后,使用具有BIG5码到GB码转换功能的软件,如地球村、东方快车、四通利方,将文件转换为GB码文件,即得到码表文件。

下面的源程序将所有可能的BIG5编码(0XA100-0XFEFF)写入文件“Table.TXT”。

//TURBO C++ 3.0
#include
#include
void main(){
FILE * codefile;
int i,j,k;
codefile=fopen("table.txt","w+b");
for (i=0xa1;i<=0xfe;I++){
for(j=0x00;j<=0xff;j++){
fwrite(& i,1,1,codefile);
fwrite(& j,1,1,codefile);}
}
fclose(codefile);
return;
}
运行地球村、东方快车或四通利方,将“Table.txt”从BIG5码转换为GB码,即获得码表文件。

第二步 转换
下面的源程序,将BIG5码文件转换为GB码文件。
//TURBO C++3.0
#include
#include
void main(){
int que, wei;
FILE * sourcefile;
FILE * tabfile;
FILE * destfile;
sourcefile = fopen("big.txt', "r+b");
//BIG5 码文件
tabfile = fopen("table.txt", 'r+b");
//码表文件
destfile = fopen("gb.txt","w+b");
//转换生成的GB码文件
while (!feof(sourcefile)){
fread(& que,1,1,sourcefile);
if (feof(sourcefile)){
break; }
if (que> =0xa1 && que <=0xfe)
//叛断是否汉字(BIG5编码)
{fread(& wei,1,1,sourcefile);
if (wei<0xa1) wei = wei - 0x40;
if (wei>=0xa1) wei = wei - 0xa1 + 0x7e - 0x40 + 1;
fseek(tabfile, 2 * ((que -0xa1) * (0xfe - 0xa1 + 1 + 0x7e - 0x40 + 1 ) + wei), SEEK_SET);
fread(& que,1,1,tabfile);
fread(& wei,1,1,tabfile);
fwrite(& que,1,1,destfile);
fwrite(& wei,1,1,destfile);
}
else
fwrite(& que,1,1,destfile); //处理英文
}
fclose(sourcefile);
fclose(tabfile);
fclose(destfile);
return;
}
以上程序在Win95/97,TC3.0 通过。稍加修改,也可用于VC或VB程序中。用同样的方法,我们也可以将GB码转换为BIG5码。

本文来自中国程序员网站

 

繁简体(GB-Big5)字符串互转的JAVA方式实现

本文提供一个java实现中文字符繁简体互换的zip包以及主要的源代码实现说明。 繁简体(GBBig5)中文字符的转化实现原理很简单,就是根据两种码表的编码规则,创建两者之间的字符对应关系表,通...
  • vicle
  • vicle
  • 2016年07月09日 22:05
  • 321

使用iconv进行GBK到BIG5编码转/简繁转换遇到的问题

Linux操作系统中的iconv命令/函数可以将一种已知的字符集文件转换成另一种已知的字符集文件。 在使用它进行GBK到BIG5的编码转换时,遇到"iconv:illeagal input seque...
  • littlefang
  • littlefang
  • 2015年02月27日 10:56
  • 3905

字符集(ASCII、GB***、Big5、Unicode)及字符编码(UTF-*等)

相信大家一定碰到过,打开某个网页,却显示一堆像乱码,如”бЇЯАзЪСЯ”、”�????????”?还记得HTTP中的Accept-Charset、Accept-Encoding、Accept-Lan...
  • xuebing1995
  • xuebing1995
  • 2017年12月04日 22:10
  • 61

繁简体(GB<=>Big5)字符串互转的JAVA方式实现

本文提供一个java实现中文字符繁简体互换的zip包以及主要的源代码实现说明。 繁简体(GBBig5)中文字符的转化实现原理很简单,就是根据两种码表的编码规则,创建两者之间的字符对应关系表,通...
  • vicle
  • vicle
  • 2016年07月09日 22:03
  • 157

GB/T2659-2000《世界各国和地区名称代码》

代码 代码名称 004 阿富汗 008 阿尔巴尼亚 012 阿尔及利亚 016 ...
  • sxdtzhp
  • sxdtzhp
  • 2016年03月27日 20:29
  • 2611

GB28181国标2016版本协议文档(报送稿)解读(一)

本文是新国标(报送稿)与前一版正式稿2011版相比修订(增加、修改)的部分。具体每一项详细的解读见后续文章。...
  • aflyeaglenku
  • aflyeaglenku
  • 2016年07月18日 17:19
  • 9247

为什么单恋TLP185GB? GR,BL和GB是什么关系?

TLP185GB辣么缺!                                (2016年5月至2017年5月份)      至于现在光耦为什么这么缺,特别...
  • tosharpCG
  • tosharpCG
  • 2017年06月09日 16:07
  • 483

计算机硬盘大小转换(B,KB,MB,GB,TB,PB之间的大小转换)

程序员都很懒,你懂的!
  • xmt1139057136
  • xmt1139057136
  • 2014年05月27日 13:38
  • 5124

(转)在endnote中制作GB/T7714《文后参考文献著录规则》的输出格式

在引用文献时,绝大多数时候都要考虑文后参考文献的格式怎么写。如果是在中国,专门有一部国家推荐标准GB/T 7714 《文后参考文献著录规则》规范文后参考文献的格式。在中国,著名的文献管理软件endno...
  • jxz_007
  • jxz_007
  • 2014年02月22日 13:16
  • 1909

中文乱码的解决之道,理清UTF8,UTF16,GB2312,Big5,Unicode之间的关系

对于使用中文的程序员们来说,中文乱码是经常碰到的问题,对于经验不是很丰富的程序员来说,中文乱码还是个相当头疼的问题。 我们知道,计算机中最简单也是最常见的编码方式是ASCII编码,由于英文字符很...
  • kaida1234
  • kaida1234
  • 2016年07月07日 16:21
  • 296
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:C++: BIG5到GB
举报原因:
原因补充:

(最多只允许输入30个字)