目录
一、汉字的机内码编码规则
汉字机内码,又称“汉字ASCII码”,简称“内码”,指计算机内部存储,处理加工和传输汉字时所用的由0和1符号组成的代码。输入码被接受后就由汉字操作系统的“输入码转换模块”转换为机内码,与所采用的键盘输入法无关。机内码是汉字最基本的编码,不管是什么汉字系统和汉字输入方法,输入的汉字外码到机器内部都要转换成机内码,才能被存储和进行各种处理。
具体解释
因为汉字处理系统要保证中西文的兼容,当系统中同时存在ASCII码和汉字国标码时,将会产生二义性。例如:有两个字节的内容为30H和21H,它既可表示汉字“啊”的国标码,又可表示西文“0”和“!”的ASCII码。为此,汉字机内码应对国标码加以适当处理和变换。
国标码的机内码为二字节长的代码,它是在相应国标码的每个字节最高位上加“1”,即汉字机内码=汉字国标码+8080H。
例如,上述“啊”字的国标码是3021H,其汉字机内码则是B0A1H。
汉字机内码的基础是汉字国标码。
机内码:为了避免ASCII码和国标码同时使用时产生二义性问题,大部分汉字系统都采用将国标码每个字节高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性,又使汉字机内码与国标码具有极简单的对应关系。
汉字机内码、国标码和区位码三者之间的关系为:区位码(十进制)的两个字节分别转换为十六进制后加2020H得到对应的国标码;机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国标码)的两个字节分别加80H得到对应的机内码;区位码(十进制)的两个字节分别转换为十六进制后加A0H得到对应的机内码。
在百度百科有对汉字的机内码有更详细的解释,链接如下:汉字机内码_百度百科https://baike.baidu.com/item/%E6%B1%89%E5%AD%97%E6%9C%BA%E5%86%85%E7%A0%81/8353201
二、汉字的区位码编码规则
简介
所谓汉字编码,就是采用一种科学可行的办法,为每个汉字编一个唯一的代码,以便计算机辨认、接收和处理。在此介绍的是《国家标准信息交换汉字编码》。这种编码经过加工整理一律以汉语拼音的字母为序,音节相同的字以使用频率为序,其查找方法与一般汉语字典的汉字拼音音节索引查找法相同。
国家标准
为了使每一个汉字有一个全国统一的代码,1980年,我国颁布了第一个汉字编码的国家标准: GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。由于国标码是四位十六进制,为了便于交流,大家常用的是四位十进制的区位码。所有的国标汉字与符号组成一个94×94的矩阵。在此方阵中,每一行称为一个"区",每一列称为一个"位",因此,这个方阵实际上组成了一个有94个区(区号分别为1到94)、每个区内有94个位(位号分别为1到94)的汉字字符集。一个汉字所在的区号和位号简单地组合在一起就构成了该汉字的"区位码"。在汉字的区位码中,高两位为区号,低两位为位号。 在区位码中,01-09区为682个特殊字符,16~87区为汉字区,包含6763个汉字 。其中16-55区为一级汉字(3755个最常用的汉字,按拼音字母的次序排列),56-87区为二级汉字(3008个汉字,按部首次序排列)。
所以,当我们需要n个任意汉字时,我们不必建一个全部汉字表,而是利用区位码实现常用汉字的提取。
在百度百科有对汉字的区位码有更详细的解释,链接如下:汉字区位码_百度百科https://baike.baidu.com/item/%E6%B1%89%E5%AD%97%E5%8C%BA%E4%BD%8D%E7%A0%81/9174867?fr=aladdin
三、字形数据存储格式
1. 点阵字库存储
在汉字的点阵字库中,每个字节的每个位都代表一个汉字的一个点,每个汉字都是由一个矩阵的点阵组成,0代表没有,1代表优点,将0和1分别用不同颜色画出,就形成了汉字,常用的点阵矩阵有12 *12,14 *14,16 *16三种字库。
字库根据字节所代表点的不同分为横向矩阵和纵向矩阵,目前多数的字库都是横向矩阵的存储方式(用得最多得应该是早期UCDOS字库),纵向矩阵一般是因为有某些液晶是采用纵向扫描显示法,为了提高显示速度,于是便把字库矩阵做成纵向,省得在显示时还要做矩阵转化。我们接下来去描述的都是指横向矩阵字库。
2. 16 *16点阵字库
对于16 *16的矩阵来说,它所需要的位数是16 *16=256个位,每个字节为8位,因此,每个汉字都需要用256/8=32个字节来表示。
即每两个字节代表一行的16个点,共需要16行,显示汉字时,只需一次性读取32个字节,并将每两个字节为一行打印出来,即可形成一个汉字。
点阵结构如下图所示:
3. 14 *14与12 *12点阵字库
对于14 *14和12 *12的字库,理论上计算,它们所需要的点阵分别为(14 *14/8)=25,(12 *12/8)=18个字节,但是,如果按这种方式来存储,那么取点阵和显示时,由于它们每一行都不是8的整数位,因此,就会涉及点阵的计算处理问题,会增加程序的复杂度,降低程序的效率。
为了解决这个问题,有些点阵字库会将14 *14和12 *12的字库按16 *14和16 *12来存储,即,每行还是按两个字节来存储,但是14 *14的字库,每两个字节的最后两位是没有使用,12 *12的字节,每两字节的最后4位是没有使用,这个根据不同的处理方式,所以在使用字库时要注意这个问题,特别是14 *14的字库。
4. 汉字点阵获取
4.1 利用区位码获取汉字
汉字点阵字库是根据区位码的顺序进行存储的,因此,我们可以根据区位来获取一个字库的点阵,它的计算公式如下:
点阵起始位置 = ((区码-1) * 94 + (位码 - 1) ) * 汉字点阵字节数
获取点阵起始位置后,我们就可以从这个位置开始,读取一个汉字的点阵。
4.2利用机内码获取汉字
前面我们已经讲过,汉字的区位码和机内码的关系如下:
机内码高位字节 = 区码 + 20H + 80H(或区码 + A0H)
机内码低位字节 = 位码 + 20H + 80H(或位码 + A0H)
反过来说,我们也可以根据机内码来获取区位码:
区码 = 机内码高位字节 - A0H
位码 = 机内码低位字节 - A0H
将这个公式与获取汉字点阵的公式进行合并就可以得到汉字的点阵位置。
四、实验,编程
打开终端,创建目录code,并进入目录code
mkdir code
cd code
准备txt文本,里面是放在图片右下角的文字。
HZKf2424.hz,是24*24点阵字形字库。
Asci0816.zf,是16点阵ASCII字库。
123.png,是预先准备的图片。
logo.txt
注意该文本文件的编码格式,将默认的UTF-8改成ANSI否则汉字将出现乱码问题。
123.png
在code目录里输入gedit test.cpp,输入以下代码
注意把路径改成自己的!!!
#include<iostream>
#include<opencv/cv.h>
#include"opencv2/opencv.hpp"
#include<opencv/cxcore.h>
#include<opencv/highgui.h>
#include<math.h>
using namespace cv;
using namespace std;
void paint_chinese(Mat& image,int x_offset,int y_offset,unsigned long offset);
void paint_ascii(Mat& image,int x_offset,int y_offset,unsigned long offset);
void put_text_to_image(int x_offset,int y_offset,String image_path,char* logo_path);
int main(){
String image_path="/home/parallels/Desktop/code/123.png";
char* logo_path=(char*)"/home/parallels/Desktop/code/logo.txt";
put_text_to_image(750,800,image_path,logo_path);//安排文字从图片像素坐标(450,750)开始显示
return 0;
}
//在图片上绘制文字的起点坐标
void paint_ascii(Mat& image,int x_offset,int y_offset,unsigned long offset){
Point p;
p.x = x_offset;
p.y = y_offset;
//存放ascii字膜
char buff[16];
//打开ascii字库文件
FILE *ASCII;
if ((ASCII = fopen("//home/parallels/Desktop/code/Asci0816.zf", "rb")) == NULL)
{
printf("Can't open ascii.zf,Please check the path!");
//getch();
exit(0);
}
fseek(ASCII, offset, SEEK_SET);
fread(buff, 16, 1, ASCII);
int i, j;
Point p1 = p;
for (i = 0; i<16; i++) //十六个char
{
p.x = x_offset;
for (j = 0; j < 8; j++) //一个char八个bit
{
p1 = p;
if (buff[i] & (0x80 >> j)) /*测试当前位是否为1*/
{
/*
由于原本ascii字膜是8*16的,不够大,
所以原本的一个像素点用4个像素点替换,
替换后就有16*32个像素点
ps:感觉这样写代码多余了,但目前暂时只想到了这种方法
*/
circle(image, p1, 0, Scalar(0, 0, 255), -1);
p1.x++;
circle(image, p1, 0, Scalar(0, 0, 255), -1);
p1.y++;
circle(image, p1, 0, Scalar(0, 0, 255), -1);
p1.x--;
circle(image, p1, 0, Scalar(0, 0, 255), -1);
}
p.x+=2; //原来的一个像素点变为四个像素点,所以x和y都应该+2
}
p.y+=2;
}
}
//在图片替换像素点
void paint_chinese(Mat& image,int x_offset,int y_offset,unsigned long offset){
Point p;
p.x=x_offset;
p.y=y_offset;
FILE *HZK;
char buff[72];//72个字节,用来存放汉字的
if((HZK=fopen("/home/parallels/Desktop/code/HZKf2424.hz","rb"))==NULL)
{
printf("Can't open HZKf2424.hz,Please check the path!");
exit(0);//退出
}
fseek(HZK, offset, SEEK_SET);/*将文件指针移动到偏移量的位置*/
fread(buff, 72, 1, HZK);/*从偏移量的位置读取72个字节,每个汉字占72个字节*/
bool mat[24][24];//定义一个新的矩阵存放转置后的文字字膜
int i,j,k;
for (i = 0; i<24; i++) /*24x24点阵汉字,一共有24行*/
{
for (j = 0; j<3; j++) /*横向有3个字节,循环判断每个字节的*/
for (k = 0; k<8; k++) /*每个字节有8位,循环判断每位是否为1*/
if (buff[i * 3 + j] & (0x80 >> k)) /*测试当前位是否为1*/
{
mat[j * 8 + k][i] = true; /*为1的存入新的字膜中*/
}
else {
mat[j * 8 + k][i] = false;
}
}
for (i = 0; i < 24; i++)
{
p.x = x_offset;
for (j = 0; j < 24; j++)
{
if (mat[i][j])
circle(image, p, 1, Scalar(255, 0, 0), -1); //写(替换)像素点
p.x++; //右移一个像素点
}
p.y++; //下移一个像素点
}
}
//将汉字放在图片上
void put_text_to_image(int x_offset,int y_offset,String image_path,char* logo_path){
//x和y就是第一个字在图片上的起始坐标
//通过图片路径获取图片
Mat image=imread(image_path);
int length=22;//要打印的字符长度(字节)
unsigned char qh,wh;//定义区号,位号
unsigned long offset;//偏移量
unsigned char hexcode[30];//用于存放记事本读取的十六进制,记得要用无符号
FILE* file_logo;
if ((file_logo = fopen(logo_path, "rb")) == NULL){
printf("Can't open txtfile,Please check the path!");
//getch();
exit(0);
}
fseek(file_logo, 0, SEEK_SET);
fread(hexcode, length, 1, file_logo);
int x =x_offset,y = y_offset;//x,y:在图片上绘制文字的起始坐标
for(int m=0;m<length;){
if(hexcode[m]==0x23){
break;//读到#号时结束
}
else if(hexcode[m]>0xaf){
qh=hexcode[m]-0xaf;//使用的字库里是以汉字啊开头,而不是以汉字符号开头
wh=hexcode[m+1] - 0xa0;//计算位码
offset=(94*(qh-1)+(wh-1))*72L;
paint_chinese(image,x,y,offset);
/*
计算在汉字库中的偏移量
对于每个汉字,使用24*24的点阵来表示的
一行有三个字节,一共24行,所以需要72个字节来表示
*/
m=m+2;//一个汉字的机内码占两个字节,
x+=24;//一个汉字为24*24个像素点,由于是水平放置,所以是向右移动24个像素点
}
else{//当读取的字符为ASCII码时
wh=hexcode[m];
offset=wh*16l;//计算英文字符的偏移量
paint_ascii(image,x,y,offset);
m++;//英文字符在文件里表示只占一个字节,所以往后移一位就行了
x+=16;
}
}
cv::imshow("image", image);//显示图片
cv::waitKey();
}
保存后输入
g++ test.cpp -o test pkg-config --cflags --libs opencv
进行编译,
然后输入
./test
即可得出结果。
结果如下:
五、总结
这次的实验比较简单,本次内容较清晰明了,有错误请指出。
要是有在Ubuntu20.04中使用中文输入法的需求,请参考ubuntu20.04设置为中文_hello water的博客-CSDN博客大功告成https://blog.csdn.net/qq_49879682/article/details/120452225ubuntu安装搜狗输入法-全面版_一千世界-CSDN博客_ubuntu安装搜狗输入法Ubuntu系统安装搜狗(sougou for linux)输入法逝不等琴生2018-09-12 18:51:0520089收藏15分类专栏:Linux文章标签:软件安装前言最近一直在学Linux系统下编程,上火狐查资料时感觉没中文输入法是挺不方便的,于是想着安装中文输入法,建议在安装之前先把系统语言调成中文,这样更方便。操作步骤1.下载搜狗输入法的安装包下载地址为:http://pinyin.sogou.com/linux/,如下图,要选择与自己系统位数...
https://blog.csdn.net/weixin_45406805/article/details/112727502