浅谈《数学之美》③——信息指纹、密码学、最大熵模型、贝叶斯网络、条件随机场、维特比算法

接着向大家介绍吴军博士的《数学之美》(自己的读书笔记)

第十六章 信息指纹及其应用

①一段文字所包含的信息,就是他的信息熵。对这段信息进行无损压缩编码,理论上编码后的最短长度就是他的信息熵(实际编码长度总是要略长于他的信息熵的比特数)。
②任何一段信息,都可以对应一个不太长的随机数,作为区别这两段信息和其他信息的指纹
③网络爬虫在下载网页时,会将访问过的网页地址都变成一个个信息指纹存到散列表中,每当遇到一个新网址时,计算机就计算其指纹,然后查找该指纹是否已经存在散列表中,来决定是否下载这个网页。
④字符串的信息指纹的计算方法一般分为两步。首先,将这个字符串看成是一个特殊的、很长的整数。接下来使用伪随机数产生器算法,通过它将任意很长的整数转换成特定长度的伪随机数。现在常用的梅森旋转算法效果不错。
视频匹配有两个核心技术:关键帧的提取和特征的提取。一般来讲,每一秒或若干秒才有一帧时完整的图像,这些帧称为关键帧
相似哈希的计算分为两步:第一步为扩展,就是将8为二进制的指纹扩展成8个实数;第二步是收缩,就是将8个实数变回成一个8位的二进制数。他的特点就是如果两个网页的相似哈希相差越小,这两个网页的相似度越高。如果两个网页相同,那么它们的相似哈希必定相同
第十七章 密码学的数学原理
①当密码之间分布均匀并且统计独立时,提供的信息最少。
第十八章闪光的不一定是金子
①原始信号混入了噪音,在数学上相当于给两个信号做卷积。
第十九章 谈谈数学模型的重要性
①由于尼罗河洪水每年泛滥一次,尼罗河下游有着十分肥沃而且灌溉方便的土地,由此孕育出人类最早的农业文明
人类文明的第二个中心美索不达米亚兴起的时候,那里的古巴比伦人对天文学有了进一步的发展。
第二十章 最大熵模型
①人们常说不要把所有的鸡蛋放在一个篮子里,这样可以降低风险,这就是最大熵原理
②最大熵原理指出,对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。因为这时概率分布的信息熵最大。
③最大熵模型计算量巨大,在工程上实现方法的好坏决定了模型的使用与否。
④最原始的最大熵模型训练方法是一种称为通用迭代算法GIS的迭代算法。他的原理大概是以下几个步骤。首先,假定第零次企鹅带的初始模型为等概率的均匀分布;之后,用第N次迭代的模型来估算每种信息特征在训练数据中的分布。如果超过了实际的,就把相应的模型参数变小,否则就将其变大;最后,重复步骤2,知道收敛。他是一个典型的期望值最大化算法
第二十一章 拼音输入法的数学原理
①输入法基本经历了以自然音节编码输入、偏旁笔画拆字输入、回归自然音节输入的三个过程。
②输入法输入汉字的快慢取决于汉字编码的平均长度,通俗地讲就是用击键次数乘以寻找这个键所用的时间
③将一个方块形状的汉字输入到计算机中,本质上是将一个人约定的信息记录编码——汉字,转换成计算机约定的编码(国标码或者UTF-8码)的信息转换过程
④对汉字的编码分为两部分:对拼音的编码消除歧义性的编码
香农第一定律:对于一个信息,任何编码的长度都不小于他的信息熵
⑥现在所有的输入法都是基于词输入的。
⑦拼音输入法就是要根据上下文在给定拼音条件下寻找一个最优的句子。
第22章 自然语言处理的教父和他的优秀弟子们
布莱尔是为了证明他的“基于变换”的机器学习方法的有效性。
拉纳帕提是为了证明最大熵模型。
恩斯勒是为了证明有限状态机。
第23章 布隆过滤机
①一般来讲,计算机中的集合是用散列表来存储的,优点是快速准确缺点是耗费存储空间散列表的存储效率只有50%
②布隆过滤机,它实际上是一个很长的二进制向量和一系列随机映射函数
第24章 马尔科夫链的扩展
①由于网络的每个弧都有一个可信度,贝叶斯网络也被称为信念网络
第25章 条件随机场、文法分析及其他
①自然语言的句法分析包括文法分析语义分析。文法分析一般是指根据文法对一个句子进行分析,建立这个句子的语法树;语义分析一般是对一个句子中各成分的语义进行分析,得到对这个句子语义的一种描述
第26章 维特比和他的维特比算法
①维特比算法是一个特殊但应用最广的动态规划算法,他是针对一个特殊的图——篱笆网络的有向图最短路径问题而提出的,凡是使用隐含马尔科夫模型描述的问题都可以用它来解码
②扩频传输,即在一个较宽的扩展频带上进行。和固定频率的传输相比,它的好处有三点。第一,他的抗感染能力强;第二,扩频传输的信号很难被截获;第三,扩频传输利用带宽更充分。

最后的几章涉及的内容偏向AI(逻辑回归、云计算基础、人工神经网络、大数据),小编能力有限,感觉找不出什么有价值的东西供读者阅读,因此就不再赘述。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值