对汉字的编码分为两个部分:对拼音的编码和消除歧义性的编码
香农第一定理:对于一个信息,任何编码长度都不小于它的信息熵。
假定在GB2312里,一共有6700多个汉字,一个汉字出现的相对频率是p1,p2,...,p6700,它们的编码长度是L1,L2,.....,L6700,那么,平均编码长度是p1 · L1+p2 · L2+...+p6700 · L6700,它的最小值是汉字的信息熵。根据香农第一定理,任何输入法都不可能超过信息熵给定的界限。
利用上下文最好的方法就是借助语言模型。
拼音转汉字的算法和在导航中寻找最短路径的算法相同,都是动态规划。
个性化的语言模型:
如何训练一个个性化的语言模型?
用户词典=一元模型+N元组
找到大量符合用户输入的内容和用语习惯的语料(余弦定理和文本分类技术)
首先将训练语言模型的文本按照主题分成很多不同的类别,对于每个类,找到他们的特征向量(TF-IDF)X1,X2,...,Xn。
然后统计个人输入的文本,得到他输入的词的特征向量Y。计算Y和X1,X2,...,Xn的余弦距离。
选择前K个和Y距离最近的类对应的文本,作为这个特定用户语言模型的训练数据。
训练一个用户特定的语言模型M1。
处理好它和通用语言模型的关系:把各种特征综合在一起的最好方法是采用最大熵模型。
本文涉及到的人物及其著作:
王永民