数学之美笔记（十五）

最新推荐文章于 2024-08-09 22:24:25 发布

weixin_34387284

最新推荐文章于 2024-08-09 22:24:25 发布

阅读量78

点赞数

文章标签：人工智能数据结构与算法

原文链接：https://my.oschina.net/shou1156226/blog/384842

版权

为什么80%的码农都做不了架构师？>>>

对汉字的编码分为两个部分：对拼音的编码和消除歧义性的编码
香农第一定理：对于一个信息，任何编码长度都不小于它的信息熵。
假定在GB2312里，一共有6700多个汉字，一个汉字出现的相对频率是p₁，p₂，...，p₆₇₀₀，它们的编码长度是L₁，L₂，.....，L₆₇₀₀，那么，平均编码长度是p₁ · L₁+p₂· L₂+...+p₆₇₀₀ · L₆₇₀₀，它的最小值是汉字的信息熵。根据香农第一定理，任何输入法都不可能超过信息熵给定的界限。
利用上下文最好的方法就是借助语言模型。
拼音转汉字的算法和在导航中寻找最短路径的算法相同，都是动态规划。
个性化的语言模型：
1. 如何训练一个个性化的语言模型？
  1. 用户词典=一元模型+N元组
  2. 找到大量符合用户输入的内容和用语习惯的语料（余弦定理和文本分类技术）
    首先将训练语言模型的文本按照主题分成很多不同的类别，对于每个类，找到他们的特征向量（TF-IDF）X₁，X₂，...，X_n。
    然后统计个人输入的文本，得到他输入的词的特征向量Y。计算Y和X₁，X₂，...，X_n的余弦距离。
    选择前K个和Y距离最近的类对应的文本，作为这个特定用户语言模型的训练数据。
    训练一个用户特定的语言模型M₁。
2. 处理好它和通用语言模型的关系：把各种特征综合在一起的最好方法是采用最大熵模型。

本文涉及到的人物及其著作：

王永民

转载于:https://my.oschina.net/shou1156226/blog/384842

weixin_34387284

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数学之美笔记（十五）

为什么80%的码农都做不了架构师？>>> ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。