在Ubuntu上利用Opencv实现图片上打印汉字

最新推荐文章于 2023-11-20 08:53:34 发布

诡道炮

最新推荐文章于 2023-11-20 08:53:34 发布

阅读量280

点赞数

文章标签： html5 html javascript

本文链接：https://blog.csdn.net/qq_47538417/article/details/121371106

版权

本文介绍了汉字点阵字库的原理，包括区位码、国标码、机内码的转换，以及如何在Ubuntu下利用Opencv库编程实现显示带有汉字的图片。通过提供代码示例展示了在Ubuntu系统中操作汉字点阵显示学号姓名的过程。

摘要由CSDN通过智能技术生成

二、Ubuntu下调用Opencv库编程实现显示图片和学号姓名

三、总结

四、参考文献

一、汉字点阵字库原理

1、区位码

整个GB2312字符集分成94个区，每区有94个位，每个区位上只有一个字符，即每区含有94个汉字或符号，用所在的区和位来对字符进行编码(实际上就是字符编号、码点编号)，因此称为区位码(或许叫“区位号”更为恰当)。

换言之，GB2312将包括汉字在内的所有字符编入一个94 * 94的二维表，行就是“区”、列就是“位”，每个字符由区、位唯一定位，其对应的区、位编号合并就是区位码。比如“万”字在45区82位，所以“万”字的区位码是：45 82（注意，GB类汉字编码为双字节编码，因此，45相当于高位字节，82相当于低位字节）。

2、国标码

为了避开ASCII字符中的不可显示字符0000 0000 ~ 0001 1111(十六进制为0 ~ 1F，十进制为0 ~ 31)及空格字符0010 0000(十六进制为20，十进制为32)（至于为什么要避开、又为什么只避开ASCII中0~32的不可显示字符和空格字符，后文有解释），国标码(又称为交换码)规定表示汉字的范围为(0010 0001，0010 0001) ~ (0111 1110，0111 1110)，十六进制为(21，21) ~ (7E，7E)，十进制为(33，33) ~ (126，126)（注意，GB类汉字编码为双字节编码）。

因此，必须将“区码”和“位码”分别加上32(十六进制为20H，后缀H表示十六进制)，作为国标码。也就是说，国标码相当于将区位码向后偏移了32，以避免与ASCII字符中0~32的不可显示字符和空格字符相冲突。

3、机内码

不过国标码还不能直接在计算机上使用，因为这样还是会和早已通用的ASCII码冲突(导致乱码)。

比如，“万”字国标码中的高位字节77与ASCII的“M”冲突，低位字节114与ASCII的“r”冲突。因此，为避免与ASCII码冲突，规定国标码中的每个字节的最高位都从0换成1，即相当于每个字节都再加上128(十六进制为80，即80H；二进制为1000 0000)，从而得到国标码的“机内码”表示，简称“内码”。

2.

由于ASCII码只用了一个字节中的低7位，所以，这个首位(最高位)上的“1”就可以作为识别汉字编码的标志，计算机在处理到首位是“1”的编码时就把它理解为汉字，在处理到首位是“0”的编码时就把它理解为ASCII字符。

比如：

77 + 128 = 205(二进制为1100 1101，十六进制为CD)

114+ 128 = 242(二进制为1111 0010，十六进制为F2)

4、点阵字库结构

在汉字的点阵字库中，每个字节的每个位都代表一个汉字的一个点，每个汉字都是由一个矩形的点阵组成，0代表没有，1代表有点，将0和1分别用不同颜色画出，就形成了一个汉字，常用的点阵矩阵有12*12, 14*14, 16*16三种字库。

字库根据字节所表示点的不同有分为横向矩阵和纵向矩阵，目前多数的字库都是横向矩阵的存储方式(用得最多的应该是早期UCDOS字库)，纵向矩阵一般是因为有某些液晶是采用纵向扫描显示法，为了提高显示速度，于是便把字库矩阵做成纵向，省得在显示时还要做矩阵转换。我们接下去所描述的都是指横向矩阵字库。

对于16*16的矩阵来说，它所需要的位数共是16*16＝256个位，每个字节为8位，因此，每个汉字都需要用256/8=32个字节来表示。

即每两个字节代表一行的16个点，共需要16行，显示汉字时，只需一次性读取32个字节，并将每两个字节为一行打印出来，即可形成一个汉字。

点阵结构如下图所示：

最低0.47元/天解锁文章

诡道炮

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
在Ubuntu上利用Opencv实现图片上打印汉字

一、汉字点阵字库原理1、区位码整个GB2312字符集分成94个区，每区有94个位，每个区位上只有一个字符，即每区含有94个汉字或符号，用所在的区和位来对字符进行编码(实际上就是字符编号、码点编号)，因此称为区位码(或许叫“区位号”更为恰当)。换言之，GB2312将包括汉字在内的所有字符编入一个94 * 94的二维表，行就是“区”、列就是“位”，每个字符由区、位唯一定位，其对应的区、位编号合并就是区位码。比如“万”字在45区82位，所以“万”字的区位码是：45 82（注意，GB类汉字编码为双字节
复制链接

扫一扫