数学之美读书笔记

最新推荐文章于 2019-03-17 18:46:40 发布

ubabyfat

最新推荐文章于 2019-03-17 18:46:40 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/u011967405/article/details/51749988

版权

二十、鸡蛋不要放在一个篮子里——最大熵模型
即：保留全部的不确定性，将风险降到最低。
最大熵原理：对一个随机事件的概率分布进行预测时，我们的预测应满足所有的已知条件，而对未知的情况不要做任何主观假设。这种情况下，概率分布最均匀，风险最低，信息熵最大。称为“最大熵模型”。
对任何一组不自相矛盾的信息，最大熵模型唯一存在。形式是指数函数。
根据上下文（前两个词）w1,w2和主题信息s预测下一个词w3的最大熵模型：

z是归一化因子，保证概率加起来为1，参数需要通过观测数据训练出来。之后有改进迭代算法IIS。
模型的训练，通用迭代算法GIS，是期望值最大化算法。
1.假定第0次迭代的初始模型为等概率的均匀分布。
2.用第N次迭代的模型来估算每种信息特征在训练数据中的分布，如果超过了实际的，就把相应的模型参数变小，否则将他们变大，
2.重复步骤2直到收敛。
最大熵模型从形式上看非常简单优美，它是唯一一种能满足所有信息源条件的限制，又能保证平滑性的模型。因此应用广泛，但但其计算量巨大，在工程中要决定其是否实用。

二十一、拼音输入法的数学原理
     输入法输入汉字的快慢取决于对汉字编码的平均长度，即击键次数乘以寻找这个键的时间。优化这两个方面。
     对汉字的编码两个方面：对拼音的编码（26个字母），消除歧义性的编码（10个数字键）。
     香农第一定理：对于一条信息，任何编码的长度都不小于它的信息熵。
     拼音转汉字的算法：动态规划
     输入法把拼音串转化成汉字串，一个拼音对应多个汉字，把一个拼音串对应的汉字从左到右连起来，是一个有向图，称为网格图或者篱笆图。拼音输入法就是在给定拼音下找最优的句子，即在上述对应的有向图里找最短路径。
     当输入的速度超过一定阀值，另一问题是考虑用户体验。因为用户的差异，通用的语言模型实际上并不好，应为用户建立个性的语言模型。两个问题：一是为用户建立个性语言模型，二是处理好和通用模型的关系。
     为用户训练特定的语言模型，用户输入的语料不够，则找符合用户输入内容和输入习惯的语料。
1.将训练模型的文本按主题分类。
2.计算每个分类的特征向量。（余弦定理）。
3.计算用户输入内容的特征向量。
4.计算用户的特征向量和各个主题分类的特征向量的距离。
5.选择最相近的几个语料文本作为用户的训练数据。
6.训练用户的特定语言模型M1.
     M1的训练数据比通用模型M0少很多，对于大部分用户来说，M1比M0好，但是存在少数情况，用户输入比较生僻，M1没有M0好。所以更好的办法是综合这两个模型，综合各种特征最好的模型是最大熵模型，由于计算量太大，所以采用线性插值的模型，综合M0和M1，得到新模型。虽没有最大熵模型好，但改进效果也很不错。

二十三、布隆过滤器
计算机中经常需要判断一个元素是否在集合中。计算机中存放集合是用哈希表，哈希表准确快速，但是耗费内存空间大。布隆过滤器只需要哈希表的1/4或1/8。不足之处是不在集合中的元素判断成在集合中，称为误识别率。
布隆过滤器的原理在于两个完全随机的数字冲突的概率很小。因此可以在很小的误识别率条件下，用很小的空间存储大量的信息。运算简单，速度快。

二十四、马尔科夫链的扩展——贝叶斯网络
马尔可夫链：每个状态值只取决于前面有限个状态。事物的关系复杂，不能用链表示，看成一个网络。

     假设在这个网络中，圆圈表示一个状态，之间的弧表示因果关系，满足马尔科夫假设，某个状态只和与她直接相连的状态有关，与和他间接相连的状态无关，则这就是贝叶斯网络。这些因果关系有一个量化的可信度，用概率描述，即每个弧可以附加一个权重。每个节点的概率计算都可以用贝叶斯公式进行，因此称为贝叶斯网络，由于每个弧都有一个可信度，所以也被称为信念网络。得到贝叶斯网络的拓扑结构和参数的过程叫结构训练和参数训练。贝叶斯网络的训练是NP完备问题，某些应用过程中可以简化。
     可以用基于统计的模型分析文本，这样的模型称为主题模型。通过贝叶斯网络建立的一种模型，Google的Rephil。建立文章、概念、关键词的联系，将大量的关键词聚合成若干概念的的聚类。
     贝叶斯网络的训练，优化网络结构，用概率度量，后验概率最大。优化参数，EM（期望值最大）过程。

二十五、条件随机场和句法分析
把句法分析看成括括号的过程。从左到右扫描每个句子的每个词，判断是否属于一下三个操作之一:1.是否开始一个左括号2.是否继续留在这个括号3.是否结束一个括号。
统计模型P(A|prefix)，A表示行动，prefix表示句子从开始到目前为止所有词和语法成分。

在一个隐含的马尔科夫模型中，X表示观测值序列，Y表示隐含的状态序列。Xi只取决于产生它们的状态Yi，和前后的Yi-1，Yi+1无关，考虑Xi和前后的状态都有关，这样的模型就是条件随机场。顶点之前的弧代表他们相互的依赖关系，采用概率分布表示。条件随机场是无向图，贝叶斯网络是有向图。

二十六、维特比算法
   维特比算法是一个动态规划算法，动态规划可以解决任何一个图中的最短路径问题，维特比算法是针对特殊的图——篱笆网络的有向图的最短路径。所有使用隐含马尔科夫模型描述的问题都可以用它来解码。
   每个状态可以有多个值，把每个状态的不同值都展开，就得到一个篱笆网络。每个状态值的可能性不一样，找最大可能性的那条路径。(最短路径)。
1.如果最短路径经过某个点，那么这这条路径从起始点到这个点这一段子路径必然是这一段的最短路径。
2.任何时刻，只要考虑有限条最短路径即可。
3.从起点到某个状态某个值的最短路径，只要考虑从起点到上一状态各个值的最短路径和上个状态各值到这个值的最短路径。
   从第一个状态依次走下去到最后一个状态，就得到了整个的最短路径。每一步计算的复杂度等于相邻两个状态的不同值个数的乘积，N为长度，D为宽度，维特比算法的复杂度为 N*D².

二十七、文本自动分类——期望最大化算法(EM)
    EM算法只需要有一些训练数据，定义一个最大化函数，经过若干次迭代，需要的模型就训练好了。
根据现有的模型，计算各个观测数据输入到模型中的计算结果，这个过程称为E，期望值计算过程，然后重新计算模型参数，以最大化期望值，称为M。
       自动文本分类:
    假设n个文本，n个特征向量，一共k类，随机设k个中心。向量还是中心，都看成点。
1.计算每个点到每个中心的距离，将点归到离它最近的那一类去。
2.计算每一类的中心。设特征向量为m维，每一类的各特征向量的相应维度的平均值作为这一维的中心。得到每个类新的中心。
3.重复上述过程，直到新的中心和旧的中心偏移很小，表示收敛。

二十八、逻辑回归和搜索广告
投放广告发展的三个阶段:
1.按竞价排名广告，出价高的广告排在前面。这样暴利的劣质公司会破坏用户体验。
2.结合出价和点击率来决定广告投放。点击率预估。
3.全局优化。
点击率预估最好的办法是是根据过去的经验。然而存在不足:对于新的广告，还没有点击率，其次，对于旧的广告，一个特定的查询对应点击率低，不能判定被点了3次的比被点了2次的好，再者，排在前面的广告自然比排在后面的广告点击率高，这是噪声。
       需要一个统一的模型描述这个问题。考虑各种因素，并且希望随着数据量的增加效果越好。现在普遍采用的是逻辑回归模型。
        逻辑回归模型是将事情出现的概率适应到一条逻辑曲线，其值域是(0，1)。逻辑曲线是一条S曲线，特点是开始快，逐渐减慢，最后饱和。变量范围从负无穷到正无穷。可以将逻辑回归函数看成概率函数。
      预测点击率，假设有k个影响点击率的变量，分别为X1，X2……Xk。可以线性的把它们组合起来。每个变量Xi有对应的自回归参数βi，表示该变量的重要性。
        这里边两个关键问题:1.选取和广告点击相关的信息，靠数据挖掘，2.自回归参数βi的训练。
       广告搜索的点击率预估问题，变量很多，βi的训练类似最大熵模型的训练，可以用GIS或者改进的IIS方法。

二十九、各个击破算法和Google云计算的基础
云计算的一个关键问题，如何把一个非常大的计算问题，自动分解到许多计算能力不是很强大的计算机上共同完成。Google的解决工具是MapReduce。其原理就是分治算法。将大任务拆分成小的子任务，并且完成子任务的计算，这个过程叫Map，将中间结果合并成最终结果，叫Reduce。