关闭

汉字显示

2148人阅读 评论(0) 收藏 举报

点阵汉字显示

作者:Little Tiger 发表日期:Nov 16,2003

  由于Turbo C应用于DOS操作系统下,在使用Turbo C进行程序设计时,一般情况下只好使用英文进行人机交互。要是想直接用中文界面,就需要另想他法了。
  如果使用中文DOS系统(如UCDOS),则可以解决在字符界面下的汉字显示问题。也就是说,可以用printf或其他字符串函数来输出汉字。
  但是,这样仍然有一些不方便。必须先启动中文DOS系统,再执行Turbo C或编译好的程序。并且在中文版DOS下运行Tubor C时,还可能出现一些问题。而对于图形界面来说,这种办法也行不通了。
  那么在图形界面下显示汉字的问题就迫切需要解决了。既然是图形界面,只要把汉字当成一幅画,画在显示屏上不就可以了。关键在于如何取得汉字的图形,也就是汉字的点阵字模呢。其实那些中文版的DOS显示汉字的方式也就是在图形界面下画出汉字的,它们已经提供了现成的点阵字库文件。例如常用的16×16点阵HZK16文件,12×12点阵HZK12文件等等,这些文件包括了GB 2312字符集中的所有汉字。现在只要弄清汉字点阵在字库文件中的格式,就可以按照自己的意愿去显示汉字了。
  下面以HZK16文件为例,分析取得汉字字模的方法。
  HZK16文件是按照GB 2312-80标准,也就是通常所说的国标码或区位码的标准排列的。国标码分为 94 个区(Section),每个区 94 个位(Position),所以也称为区位码。其中01~09 区为符号、数字区,16~87 区为汉字区。而 10~15 区、88~94 区是空白区域。
  如何取得汉字的区位码呢?在计算机处理汉字和ASCII字符时,使每个ASCII字符占用1个字节,而一个汉字占用两个字节,其值称为汉字的内码。其中第一个字节的值为区号加上32(20H),第二个字节的值为位号加上32(20H)。为了与ASCII字符区别开,表示汉字的两个字节的最高位都是1,也就是两个字节的值都又加上了128(80H)。这样,通过汉字的内码,就可以计算出汉字的区位码。
  具体算式如下:
  qh=c1-32-128=c1-160 wh=c2-32-128=c2-160
  或   
  qh=c1-0xa0 wh=c2-0xa0
  qh,wh为汉字的区号和位号,c1,c2为汉字的第一字节和第二字节。
  根据区号和位号可以得到汉字字模在文件中的位置:
  location=(94*(qh-1)+(wh-1))*一个点阵字模的字节数。
  那么一个点阵字模究竟占用多少字节数呢?我们来分析一下汉字字模的具体排列方式。
  例如下图中显示的“汉”字,使用16×16点阵。字模中每一点使用一个二进制位(Bit)表示,如果是1,则说明此处有点,若是0,则说明没有。这样,一个16×16点阵的汉字总共需要16*16/8=32个字节表示。字模的表示顺序为:先从左到右,再从上到下,也就是先画左上方的8个点,再是右上方的8个点,然后是第二行左边8个点,右边8个点,依此类推,画满16×16个点。

  对于其它点阵字库文件,则也是使用类似的方法进行显示。例如HZK12,但是HZK12文件的格式有些特别,如果你将它的字模当作12*12位计算的话,根本无法正常显示汉字。因为字库设计者为了使用的方便,字模每行的位数均补齐为8的整数倍,于是实际该字库的位长度是16*12,每个字模大小为24字节,虽然每行都多出了4位,但这4位都是0(不显示),并不影响显示效果。 还有UCDOS下的HZK24S(宋体)、HZK24K(楷体)或HZK24H(黑体)这些打印字库文件,每个字模占用24*24/8=72字节,不过这类大字模汉字库为了打印的方便,将字模都放倒了,所以在显示时要注意把横纵方向颠倒过来就可以了。
  这样我们就完全清楚了如何得到汉字的点阵字模,这样就可以在程序中随意的显示汉字了。
  如果在程序中使用的汉字数目不多,也可以不必总是在程序里带上几百K的字库文件,也许你的程序才只有几十K。这样可以事先将所需要显示的汉字字模提取出来,放在另一个文件里,按照自己的顺序读取文件就可以了。
  下面的程序说明了具体显示汉字的方法,以16×16汉字为例,使用HZK16文件。

#include<stdio.h>
#include<graphics.h>

/* x,y为显示坐标,s为显示字符串,colour为颜色 */
void hanzi16(int x,int y,char *s,int colour)
{
FILE *fp;
char buffer[32]; /* 32字节的字模缓冲区 */
register I,j,k;
unsigned char qh,wh;
unsigned long location;
if((fp=fopen("hzk16","rb"))==NULL)
{
printf("Can't open hzk16!");
getch();
exit(0);
}
while(*s)
{
qh=*s-0xa0;
wh=*(s+1)-0xa0;
location=(94*(qh-1)+(wh-1))*32L; /* 计算汉字字模在文件中的位置 */
fseek(fp,location,SEEK_SET);
fread(buffer,32,1,fp);
for(i=0;i<16;i++)
for(j=0;j<2;j++)
for(k=0;k<8;k++)
if(((buffer[i*2+j]>>(7-k))&0x1)!=NULL)
putpixel(x+8*j+k,y+I,colour);
s+=2;
x+=16; /* 汉字间距 */
}
fclose(fp);
}

main()
{
int gd=DETECT,gm;
initgraph(&gd,&gm,"");

hanzi16(246,200,"疯狂甲虫乐园!",BROWN);

getch();
closegraph();
}

另:    在UCGUI中增加汉字显示的说明.

在UCGUI中增加汉字显示的说明.

UCGUI中本身只支持E,没有提供中文的字库的.C源码文件, 但是我们可以通过下面的方式来实现汉字的显示...

我们知道, 在DOS下经常利用点阵来显示汉字. 带汉字显示的程序,很多都会自己带上汉字库, 这个字库里放的就是每个汉字的

点阵.

一. 汉字的显示原理之一 -----------------点阵汉字.

简单的理解, 所谓一个字的点阵. 其实就是指这个汉字用多少个象素点来描述. 每个象素点显示为什么颜色, 通常情况下,

HZK16采用的是16*16点阵, 即256个象素点描述一个汉字.
这些点的颜色分为两种, 一种是前景色, 一种是显示为背景色.

那么,关于那些点显示为前景色, 那些点显示为背景色, 是如何得知的呢??

可以这样来考虑, 你在纸上比较正正方方的写一个规则的楷字, 然后在这个字的从上到下,左到右, 分别画十七条直线, 那么这

个字就被放置于一个16*16的方格之内, 这样我们就可以很明显的看出, 16*16的方格内的具体哪些点有笔划经过, 有笔划经过

与没笔化经过的即就是应该被分别填充上前景色与背景色的点.

现在,找到了一个汉字的点阵, 那么还须要用数据来记录点阵的信息, 通常情况下, 我们会用32个字节来表示16*16点阵的汉字,

即每一行用二个字节来记录十六个象素点的色色彩情况, 0表示背景色, 1表示前景色. 16行其须要32个字节.

点阵汉字的原理同时也决定了它的缺点, 他不具务放大特性, 因为它的显示是基于被定死的点阵, 放大后, 会产生明显的锯齿,

非常的难看, 当然, 可以进行一些光滑处理, 但基本上没有多在的改观.

但点阵汉字简易, 对于复杂汉字, 它比矢量显示汉字法更快带.矢量显示是基于记录汉字的笔化的. 对于简单的汉字它比较占优

势, 容易放大处理. 但对于复杂的汉字, 表示起来, 则笔化太多..复杂.

 

二. 关于字库的建立及其原理.

现在讲完了汉字点阵. 也说了一个汉字点阵的存放方式, 但具体的点阵如何存放, 读者也应该了解.

通常情况下, 一般的DOS下的程序都会提供一个汉字库, 这样在脱离汉字平台(如UCDO)的支持下也可以进行汉字显示, 但是这样

会存一个问题, 就是如果每个DOS下的程序员都这么做的话, 就会造成一定的磁盘空间浪费. 所以有的DOS下的程序,针对自己所

需要的汉字, 就会定制自己的小型字库, 那么字库的制作到底应该如何进行呢? 下面我们将就这个问题进行一些基本的讨论.


众所周知,一个ASCII字符占一个字节,它的数值从0到255, 那么汉字字符将如何与ASCII字符区别开来呢?

实际上,仔细观察ASCII字符表,从第161(即0xa1)个字符开始,后面的字符并不经常为E文所使用。充分利用这一特性,将161-

255之间的数值空间作为汉字的标识码。既然255-161 = 94不能满足汉字容量的要求,就将每两个字符并在一块(即一个汉字占

两个字节),显然,94* 94 =8836基本上已经满足了常用汉字个数的要求。

从以上的讨论可以知道, 用二个字节来表示一个汉字, 其原因就是上面说的, 这个就是我们常说的汉字机内码, 一个汉字的机

内码是由值都大于0xa1的值组成的.

说完机内码, 有的朋友可能就会问题, 机内码与建立汉字字库有什么关系呢??

我们常见的标准的汉字字库HZX16(点阵16*16),HZK24(24*24)两种.由上面的讨论我们得知, 一个汉字点阵须要256个象素点阵来

表示, 我们采用一个字节的8位来表示八个象素, 其须32个字节; 字库中要存放的是所有常用的汉字的二进制点阵数据, 它的存

放是有序的, 下面我们说一下这个顺序:

首先.对于"我"字来说, 它的机内码是0xce,0xd2; 机内码每个字节均从0xa1开始, 那么我们已经采用的建立点阵字在库中的索

引方法是:

将整个字库里面的汉字是94*94的二维数组, 要找任意一个汉字的点阵, 就须要知道这个汉字在这个二维数组当中的X维与Y维.

x维 = (机内码字节1-0xa1) & 0x7f;

y维 = (机内码字节2-0xa1) & 0x7f;

求汉字在X,Y维后, 那么按照每个汉字占用32个字节, 则可以得出汉字相对于字库头的偏移是 offset = (x*94 + y)*32;


其实,X与Y就是汉字的区位码, 汉字的区位码是从0-94的. 但实际上只用了16-87..

其中一级汉字在16-55..二级汉字在56-87.是按照一定的规则来确定区位码的.对于一级汉字.是按拼音首字母级笔划.二级汉字

是按部首来的.我特意生了一个汉字的区痊码,机内码.在字库中偏移的文件..大家可以下载来看一下. 可以知道:

啊-------------区位码(x = 15, y = 0); offset=b040; 机内码:(0xb0,0xa1); 

所以汉字的区内码,机内码,偏移的信息,请下载这个文件查看.

http://www.macro-tax.com/home/ucgui/HZK_info.rar

其中,区位码(x=0-14)与(88-94)都是没有对应汉字的.字库中实际的对应汉字点阵字数为94*72=6768个汉字.

实际上, 一个字库中有前16*32个字节没有表示具体的汉字的, 在字库里被用来表示什么东西没有什么具体的要求, 如果说你自

己要做一个字库.那么这一段你可以自己发挥, 填充为一个中文的符号,笑脸,特别文字什么的.这些没有具体的要求.

同理.对于(88---94)*32, 你也可以自己发挥. 然后告知别人如何使用,因为这个没有标准, 所以一定要有特别的说明,别人才可

可以使用.

在一般的HZK16当中, 最前16*32个节有表示两个大小的"A"及两个感叹号, 一个在圆内的"帅"字..大家可以仔细看一下,其它几

个没作特别使用.

 


三.应用程序中进行汉这显示的处理

那么, 在以上我们谈了汉字的显示原理, 汉字字库的存放原理, 其实都是为了更方便的让我们自由使用..

在实际小, 一个应用程序未必须要显示所有的汉字, 可能他仅须要显示1000个常用的汉字, 那么就可制作一个1000个常用的小

型汉字字库, 即所需要的汉字库从250K降到32K左右了, 大大的减少了资源占用,使用上非常的灵活.

 

四. 在UCGUI中如何加入汉字显示的支持.

UCGUI中没有汉字功能的支持, 但其实只要稍加改造, 我们就可以解决点阵汉字显示的问题.

UCGUI中, 对于E文的显示, 也同样采用的是点阵的方式, 而且有8*8,6*8, 16*8, 16*16等各种点阵, 这里, 我们可以实现在设

置显示16*16的E文字体时, 加上我们的汉字显示, 因为是同样的点阵, 我们不用任何改造, 只要有HZK16文件, 就可以在此E文

字体下显示汉字了.

全部的改造基本上集中在这个函数内部.

void GL_DispChar(U16 c) {
  /* check for control characters */
  if (c == '/n') {
    GUI_DispNextLine();
  } else {
    if (c != '/r') {
      GUI_Context.pAFont->pfDispChar(c);
    }
  }
}

要支持汉字显示, 那么必须改成如下形式.

void GL_DispChar(U16 c) {
  /* check for control characters */
  if (c == '/n') {
    GUI_DispNextLine();
  } else {
    if (c != '/r') {

    //汉字支持所要做的修改..2005-6-13 0:14:09
    if (c0&0x80 && (*(U8*)s)&0x80){
   char hz[3];
   hz[0]=c0;
   hz[1]=*(U8*)s;
   hz[2]=0;
   WriteHZ(0,0,hz,0);
   s++;
    }

      GUI_Context.pAFont->pfDispChar(c);
    }
  }
}

 


另外, 除了以上所讲的, 我在网上发现如下的一篇文章非常适合大家加强对汉字处理的理解. 汉字处理在DOS时代是一个比较热

门的技术, 但在现在的WIN时代.没有什么人关注了, 但是在嵌入式开发了, 它还有一定的用武之地, 理解它还是有一定的帮助

的.

一篇介绍汉字处理的文章, 非常不错, 很基础,很明白, 其分四节来讲汉字的基本原理.

http://www.vcer.net/showTip.jsp?tipid=2291

0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:241641次
    • 积分:3213
    • 等级:
    • 排名:第11014名
    • 原创:35篇
    • 转载:226篇
    • 译文:0篇
    • 评论:14条
    文章分类
    最新评论