这次的博客是我们的一次课程实验,实验内容主要是验证和完成汉字的区位码、国际吗、机内码之间的转换规则,以及在图片上叠加汉字。
本次实验要完成的内容主要i有三个:
- 验证汉字的区位码和机内码转换关系。
- 如果包含汉字串(比如“张三 631604406”)的txt文本文件分别以ANSI、UTF-8、UTF-16、GBK编码格式保存、重新验证任务1。
- 编程完成一张图片上的汉字叠加显示。
一、验证汉字的区位码和机内码的转换关系
1、区位码
在国标 GD2312—80 中规定,所有的国标汉字及符号分配在一个 94 行、94 列的方阵中,方阵的每一行称为一个“区”,编号为 01 区到 94 区,每一列称为一个“位”,编号为01 位到 94 位,方阵中的每一个汉字和符号所在的区号和位号组合在一起形成的四个阿拉伯数字就是它们的“区位码”。区位码的前两位是它的区号,后两位是它的位号。用区位码就可以唯一地确定一个汉字或符号,反过来说,任何一个汉字或符号也都对应着一个唯一的区位码。汉字“母”字的区位码是 3624,表明它在方阵的 36 区 24 位,问号“?”的区位码为0331,则它在 03 区 3l 位。
2、机内码
汉字的机内码是指在计算机中表示一个汉字的编码。机内码与区位码稍有区别。如上所述,汉字区位码的区码和位码的取值均在 1~94 之间,如直接用区位码作为机内码,就会与基本 ASCII 码混淆。为了避免机内码与基本 ASCII 码的冲突,需要避开基本 ASCII 码中的控制码(00H~1FH),还需与基本 ASCII 码中的字符相区别。为了实现这两点,可以先在区码和位码分别加上 20H,在此基础上再加 80H。经过这些处理,用机内码表示一个汉字需要占两个字节,分别称为高位字节和低位字节,这两位字节的机内码按如下规则表示:
高位字节 = 区码 + 20H + 80H(或区码 + A0H)
低位字节 = 位码 + 20H + 80H(或位码 + AOH)
由于汉字的区码与位码的取值范围的十六进制数均为 01H~5EH(即十进制的 01~94),所以汉字的高位字节与低位字节的取值范围则为 A1H~FEH(即十进制的 161~254)
例如,汉字“啊”的区位码为 1601,区码和位码分别用十六进制表示即为 1001H,它的机内码的高位字节为 B0H,低位字节为 A1H,机内码就是 B0A1H
有几种方法可以实现在Windows下查看汉字机内码:
1)Debug
由于我的电脑的Windows10没有Debug,所以没法验证,推荐一篇:https://blog.csdn.net/qincode/article/details/26079213?utm_source=blogxgwz0
2)使用WinHex
下载地址:http://www.x-ways.net/winhex/
使用WinHex直接打开输入了汉字的*.txt文件(直接就是16进制的):
3)使用notepad++
下载地址:https://notepad-plus.en.softonic.com/
使用方法:在NotePad++中输入汉字,然后直接以十六进制显示就是汉字的机内码:
4)C语言查看
直接贴出代码:
#include<stdio.h>
void main(void)
{
unsigned char temp[2];
scanf("%s",temp);
printf("机内码高字节是0x%.2x\n",temp[0]);
printf("机内码低字节是0x%.2x\n",temp[1]);
printf("区位码区码是%2d\n",temp[0]-0xa0);
printf("区位码位码是%2d\n",temp[1]-0xa0);
printf("国际码高字节是0x%.2x\n",temp[0]-0x80);
printf("国际码低字节是0x%.2x\n",temp[1]-0x80);
}
测试结果如下:
第二个实验要求有重复的地方,和第一个差不多。
推荐一篇关于UTF-8编码的:https://blog.csdn.net/xiaolei1021/article/details/52093706
其中要注意的是在Windows中可以用记事本中文件->另存为:
选择编码格式,但是这里只utf-8、ANSI、Unicode等四种编码格式,在notepad++中何以更改更多的编码格式:
在设置->首选项->新建选项卡:
可以修改编码格式。
三、编程完成一张图片上的汉字叠加显示
直接上效果图
然后是代码:
#include <stdio.h>
#include <stdlib.h>
#include <cxcore.h>
#include <highgui.h>
#include <direct.h>
#include<iostream>
using namespace std;
using namespace cv;
const int CC_SIZE = 16;
const int SAFE_WIDTH = 10;
const int CC_NUMBER = 15;
// 姓名
unsigned char name[7] = "xx"; //自己的名字
unsigned int name_code[2][2];
// 学号
unsigned int id_code[12][2] = { { 0xa3, 0xb6 }, { 0xa3, 0xb3 }, { 0xa3, 0xb1 }, { 0xa3, 0xb6 }, { 0xa3, 0xb0 }, { 0xa3, 0xb7 }, { 0xa3, 0xb0 }, { 0xa3, 0xb4 }, { 0xa3, 0xb0 }, { 0xa3, 0xb1 }, { 0xa3, 0xb0 }, { 0xa3, 0xb3 } };
// 保存字节的数组
unsigned char mat[16][2];
FILE* HZK16;
IplImage* img;
void get_area_position_codes();
void get_mat(int a_code, int p_code);
void open_file();
void draw_one_cc(int num);
void release();
int main()
{
open_file();
get_area_position_codes();
// 写名字
int i, j;
for (i = 0; i < 2; ++i)
{
get_mat(name_code[i][0], name_code[i][1]);
draw_one_cc(i);
}
// 写学号
for (j = 0; j < 12; ++j)
{
get_mat(id_code[j][0] - 0xa0, id_code[j][1] - 0xa0);
draw_one_cc(i + j);
}
// 显示图片
cvShowImage("IMAGE", img);
cvWaitKey(0);
release();
return 0;
}
void get_area_position_codes()
{
for (int i = 0; i < 3; ++i)
for (int j = 0; j < 2; ++j)
name_code[i][j] = name[i * 2 + j] - 0xa0;
}
void get_mat(int a_code, int p_code)
{
long offset;
offset = (94 * (a_code - 1) + (p_code - 1)) * 32L;
// 读取数据存入数组
fseek(HZK16, offset, SEEK_SET);
fread(mat, 32, 1, HZK16);
}
void open_file()
{
char pbuf[100];
_getcwd(pbuf, 100);
strcat(pbuf, "\\HZKf1616.hz");
// 读取图片
if ((img = cvLoadImage("lena.jpg")) == NULL)exit(1);
// 打开字体文件
if ((HZK16 = fopen(pbuf, "rb")) == NULL)exit(1);
}
void draw_one_cc(int num)
{
// 图片的像素值
int width, height;
width = img->width;
height = img->height;
// 开始的x y像素点
int start_x, start_y, size, current_start_x, current_start_y;
size = CC_SIZE + SAFE_WIDTH;
start_x = width - CC_NUMBER * size;
start_y = height - CC_SIZE - SAFE_WIDTH;
// 开始绘制
CvScalar cs;
for (int i = 0; i < 16; ++i)
for (int j = 0; j < 2; ++j)
for (int k = 0; k < 8; k++)
if (mat[i][j] & (0x80 >> k))
{
cout << mat[i][j] << endl;
// 绘点
current_start_x = j * 8 + k + start_x + size * num;
current_start_y = start_y + i;
cs = cvGet2D(img, current_start_y, current_start_x);
cs.val[0] = 0;
cs.val[1] = 0;
cs.val[2] = 0;
cvSet2D(img, current_start_y, current_start_x, cs);
}
}
void release()
{
cvReleaseImage(&img);
fclose(HZK16);
img = NULL;
HZK16 = NULL;
}
四、实验体会
本次实验主要的内容是为了了解和理解汉字的区位码、机内码的编码规则,以及utf-8等编码格式的编码规则,了解了汉字在计算机中是如何的存储和输出的。