一. 实验目的
1.熟悉汉字的机内码,掌握以十六进制形式查看文件内容的方法。
2.理解GB2312--80中汉字的分布规律,掌握区位码到汉字机内码的转换规则。
3.掌握编写程序对文本文件和二进制文件的读写操作。
4.了解中文信息处理的主要研究领域与研究现状。
二. 实验内容
1.使用十六进制编辑器查看自己姓名的内机码。
2.编写汉字区位码查看程序,让用户输入一个汉字从而显示该汉字的区位码。
3.熟悉文件操作,编写程序将同样的数据分别写入文本文件和二进制文件,比较二者的区别。
4.了解中英机器翻译系统的研究进展与实用情况。
三. 实验步骤和结果
<1.>查看自己姓名的内码
1.打开windows附带的记事本。
2.在记事本中使用汉字输入法输入自己的学号和姓名。
3.以“name.txt”命名保存时编码选择“ANSI”
4.关闭记事本
5.查看文件属性,记录文件大小(单位:字节)
6.用十六进制编辑器打开“name.txt”文件,记录下该文件的十六进制内容。
十六进制:
7.关闭编辑器。
8.打开文本文件重新以“name1.txt”名“Unicode”编码格式保存。
9.用十六进制编辑器打开“name1.txt”文件,记录下该文件的内容。
<2.>编写汉字区位码查看程序
1.创建vs2013中的c++控制台项目
2.
3.在源程序编辑窗口编写代码,程序中定义一个具有三个元素的字符数组,然后接受用户一个汉字,接着将汉字的两个字节分别减去A0H,最后以十进制输出,就可以得到该汉字的区位码。,运行程序,输入如下内容,得出结果。
C++代码:
国:
码:
国家:
AB:
<3.>熟悉文件操作
1.创建c++工程
2.以文本方式创建文件“text.txt”和二进制方式创建文件“bin.dat”,产生10个1~100之间的随机正整数分别写入这两个文件,其中文本文件中每个整数写一行。
代码:
产生随机整数:
以十六进制打开text.txt文件:
以十六进制打开bin.dat文件:
区别:两个文件大小不一样了,猜测跟存储方式不一样,文本文件存储根据相关的编码方式对应的数字的二进制码存储,而二进制文件则直接保存数字的二进制值。
<4.>了解汉英翻译系统的进展
1.写出翻译系统:
有道翻译、百度翻译
2.如下英文句:He saw a duck with a telescope。写出理解的翻译:
他从望远镜里看到了一只鸭子。
3.用不同的翻译系统得出翻译结果:
有道:他用望远镜看见一只鸭子。
百度:他看见一只带望远镜的鸭子。
4.请你评价目前的翻译系统:
总的来说目前翻译系统已经取得了很大的进步,但是还不够智能,不会用合理优美的句子来替换原句,这点对于我们来说还需要加大研究力度才好。