数学之美笔记(十五)


  1. 对汉字的编码分为两个部分:对拼音的编码和消除歧义性的编码

  2. 香农第一定理:对于一个信息,任何编码长度都不小于它的信息熵。

  3. 假定在GB2312里,一共有6700多个汉字,一个汉字出现的相对频率是p1,p2,...,p6700,它们的编码长度是L1,L2,.....,L6700,那么,平均编码长度是p1 · L1+p2 · L2+...+p6700 · L6700,它的最小值是汉字的信息熵。根据香农第一定理,任何输入法都不可能超过信息熵给定的界限。

  4. 利用上下文最好的方法就是借助语言模型。

  5. 拼音转汉字的算法和在导航中寻找最短路径的算法相同,都是动态规划。

  6. 个性化的语言模型: 

    1. 如何训练一个个性化的语言模型? 

      1. 用户词典=一元模型+N元组

      2. 找到大量符合用户输入的内容和用语习惯的语料(余弦定理和文本分类技术)

        首先将训练语言模型的文本按照主题分成很多不同的类别,对于每个类,找到他们的特征向量(TF-IDF)X1,X2,...,Xn

        然后统计个人输入的文本,得到他输入的词的特征向量Y。计算Y和X1,X2,...,Xn的余弦距离。

        选择前K个和Y距离最近的类对应的文本,作为这个特定用户语言模型的训练数据。

        训练一个用户特定的语言模型M1。  

    2. 处理好它和通用语言模型的关系:把各种特征综合在一起的最好方法是采用最大熵模型。


本文涉及到的人物及其著作:

王永民

转载于:https://my.oschina.net/shou1156226/blog/384842

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值