怎样取得汉字的拼音

最新推荐文章于 2023-03-29 16:14:51 发布

双杯献酒

最新推荐文章于 2023-03-29 16:14:51 发布

阅读量2k

点赞数

分类专栏：算法文章标签：输入法 api 微软 windows sun 算法

算法专栏收录该内容

50 篇文章 1 订阅

订阅专栏

http://topic.csdn.net/t/20021015/21/1099919.html
Hawk_sun (孙岳)

关于怎样取得汉字的拼音，一共有三种办法，一一列举如下：

1。通过输入法的逆转换功能
    目前肯定支持该方法的输入法有微软拼音输入法，同时微软也提供了一套API用以实现这种转换。
    这种方法的优点是能解决多音字问题，缺点是用户必须安装微软拼音输入法。使用这种方法的基本步骤是：
1〉查询本机输入法列表，使用API函数GetKeyboardLayoutList。
2〉得到输入法的名称，使用API函数ImmEscape。
3〉看看这个输入法是否支持Reverse   Conversion功能，使用API函数
      ImmGetConversionList。
4〉如果该种输入法支持Reverse   Conversion功能，继续使用ImmGetConversionList函数来获得指定汉字的拼音。

关于这几个API函数的使用和要注意的问题你们可以查询MSDN.

我下面要讲的第二种办法，也就是上面诸位提到的一种很直接的办法，就是利用查表的办法，但是查表也有讲究，因为这是与效率相关的，表格的组织形式直接影响查表的速度。我介绍一点我的经验。

1〉获得GB2312种所有汉字的一张读音表。这种表格网上到处都是，如果确实没有，就利用windows的码表逆转换功能，将拼音输入法的码表文件转换成字根文件，但是这里有个缺点，就是无法取得声调信息。但是网络上的各种标准化组织的网站上又很多提供这个文件下载的网站，我曾经到过一个Unicode的标准化推广网站，上面就有 "GB码---Unicode---拼音 "的对应关系表，可惜我忘记了网站的地址，相信很多人自己已经有了这样一张表。

2> 构造一个散列函数，该函数记为y=f(x);
如果你是利用Unicode作为查表的索引，那么x就应该代表该汉字的Unicode，y就代表该汉字在文件中的偏移量,如果每个汉字在文件中的存放格式类似于A:B,其中A为该汉字,B为该汉字的拼音字符串,那么y+3这个偏移量就代表拼音的起始位置.假定每个条目用15个字节来存放,那么你只需要读出y+3到y+15的字符串就能取到汉字的拼音.
同样,如果你利用GB码或者Big5码或者UTF8编码,那么x就表示这个编码,y同样表示这个位置.
从上述算法看,为了避免查表时文件指针的频繁前后定位,同时也为了保证y的唯一性,对散列函数的构造有特殊的要求,即算出来的位置不能重复,不能覆盖,且要保证有15个字节的偏移余量.

3> 构造好散列函数之后,利用现成的汉字--拼音对应表构造一个高效率的表文件,将汉字和其拼音一一读入,按照散列函数将汉字和拼音一一写入对应的位置.于是得到一个新的码表文件.

4> 最后,在你的程序中可以随心所欲的利用这个文件来查拼音.

再来讲第三种方法:
利用IFELLanguage接口.在windowsNt以及以后的版本中,微软公司内置了一个IFELLanguage接口,这个接口实现了对系统本地编码表的访问.该接口包含很多方法.(稍候我会继续!!)