数学之美读书感悟02

第16章 信息指纹及其应用

信息指纹是指任何一段信息都可以对应一个随机数,作为区别这段信息和其它信息的指纹。在图论和网络爬虫一章中,为了防止下载同一个网页,需要在哈希表中记录访问过的网址URL,可以采用信息指纹的方法来节省存储空间和计算量。一般分为两步,首先将一连串字符串看成一个特殊的,很长的整数。接着是采用伪随机数产生器算法,通过它将任意很长的整数转换成特定长度的伪随机数。信息指纹的用途不止用于网址的消重,也适用于密码学的研究。信息指纹也可以高效的判定集合是否相同或者基本相同,计算复杂度时不需要额外的空间。YouTube反盗版视频的匹配有两个核心技术,关键帧的提取和特征的提取。用一组信息指纹表示这些关键帧,有了信息指纹检测视频是否盗版就类似于比较两个集合元素是否相同了。关于信息指纹重复的可能性,不同信息产生相同指纹的可能性几乎为零。既然采用64位的指纹,重复的可能性依然很低。
信息指纹可以简单理解为将一段信息(文字,图片,音频,视频等)随机映射成一个二进制数字,我认为关于信息指纹可以用于日常生活的各个领域,用于追踪,服务等,提供全方位的智能服务。

第17章 由电视剧《暗算》所想到的—谈谈密码学的数学原理

本章作者介绍了关于密码学的发展及加密解密过程,指出好的密码必须做到根据已知明文和密文的对应推断不出新的密文内容。二战中许多成功的战役关键在于破解了敌方的密码,掌握了先机,也使得密码学在二战期间得到了进一步发展。例如,香农提出的信息论就是情报学的直接产物。
公开密钥的方法如下:
1:找到两个很大的素数P和Q,求得乘积N = P * Q,M = (P-1)*(Q-1)
2:取与M互素的整数E。
3:找到整数D使之满足E * D mod M = 1
那么E为用于加密的公钥,D为用于解密的私钥,N为公开的值,如对X进行加密,得到密码为Y,原理:费马小定理。公开密钥的好处:使用简单,可靠,灵活。世界上没有永远破不了的密码,关键是它能有多长时间的有效期。信息可以消除一个系统的不确定性,而利用获取情报的信息来消除系统不确定性的过程就是解密。在这里插入图片描述

第18章 闪光的不一定是金子—谈谈搜索引擎的反作弊问题和搜索结果的权威性问题

本章主要是解决针对搜索引擎网络排名作弊以及如何屏蔽个人用户在互网上编辑创作产生大量不准确的信息。
关于搜索引擎反作弊,首先介绍了一些早期搜索引擎排名作弊的方式。搜索引擎作弊从本质上看就如同对排序信息加入噪音,因此反作弊第一条就是增加排序算法的抗噪音能力。其次是像在信号处理中去噪音那样,还原真实的排名。每个网站到其他网站的出链数目可以作为一个向量,通过计算余弦距离来判断是否作弊网站。对于作弊的网站,一般都要相互链接以提高排名,而在图论中,几个节点两两互相连接在一起称为一个Clique,图论中有专门发现Clique的方法,可直接应用于网页排名反作弊。作弊的本质是在网络排名信号中加入噪声,因此反作弊的关键是去噪声。在这里插入图片描述

用户使用搜索引擎一般有两个目的,其一是导航,其二是查找信息。对于查找信息来说,权威性是影响用户体验感的关键。作者通过列举一系列事例,如奥巴马的出生地,手机的使用是否会增加癌症的风险等例子,说明了查找结果权威性的重要性,并给出了以下计算权威性的步骤:
1.对每一个网页正文中的每一句话进行句法分析,然后找出涉及到主题的短语,以及对信息源的描述。
2.利用互信息,找到主题短语和信息源的相关性。
3.采用矩阵运算的方法对主题短语进行聚合。
4.对一个网站中的网页进行聚合,权威性的度量只建立在子域或者子目录这一级。
完成上述步骤后就可以得到一个关于针对不同主题,信息源具有权威性的关联矩阵。利用数学模型对搜索结果进行权威性度量,提高用户的体验。

第19章 谈谈数学模型的重要性

作者以天文学发展为背景介绍了数学模型的重要性,主要表现在:
1.一个正确的数学模型在形式上是简单的,托勒密的伟大之处是用40-60个在大圆上面套小圆的方法,精准地计算出来所有行星运动的轨迹,就是太过复杂。
2.对于一个正确的模型,如果我们认定大方向是正确的,就应该坚持下去,比如日心说,刚开始提出时并没有地心说描述的准确,由哥白尼提出,开普勒,牛顿等科学家前后完善,才使得日心说为越来越多的学者认可。
3.大量准确的数据对研发很重要,如开普勒提出的三大定律正是继承了第谷老师手里大量准确的观测数据,发现了行星围绕太阳运转的轨道是椭圆,并提出了开普勒三大定律。
4.正确的模型也可能受到噪声的干扰,而显得不准确;这时不应该用一种凑合的方法加以弥补,而是要找到噪声的根源,这也许会有更大的发现。

第20章 不要把鸡蛋放在一个篮子—谈谈最大熵模型

首先通过一个拼音转汉字的简单例子引出最大熵模型可以完美解决此类问题,它的原理就是要保留全部的不确定性,将风险降到最小。在这种情况下,概率分布越均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们把这种模型称为最大值模型。最大熵模型在形式上是最漂亮,最完美的统计模型,在自然语言处理和金融方面有很多有趣的应用。原始的最大熵模型的训练方法是一种称为最通用迭代算法GIS的迭代算法。随着计算机计算速度提升以及训练算法的改进,最大熵模型应用于更多的领域,如句法分析,语言模型和机器翻译等。
通过阅读本章可以了解到,最大熵模型可以将各种信息整合到一个统一的模型中,在形式上它非常简单,优美。在效果上,它是唯一一种既能满足各个信息源的限制条件,又能保证平滑性的模型。最大熵模型计算量巨大,在工程上实现方法的好坏决定了模型的实用与否。

第21章 拼音输入法的数学原理

输入法输入汉字的快慢取决于汉字编码的平均长度,就是用击键次数乘以寻找这个键所需要的时间。提高输入法的效率主要在于提高输入速度和寻找一个键所用时间。双拼输入法的缺点:1.增加了编码上的歧义性;2.增加了每次击键的时间;3.对拼音的容错性不好。拼音输入法被汉字用户最终接受的理由:1.无需专门学习;2.输入自然,不会中断思维;3.编码长,有信息冗余量,容错性好。
香农第一定理指出:对于一个信息,任何编码的长度都不小于它的信息熵。汉字的平均编码长度的最小值就是汉字的信息熵,任何输入法不可能突破信息熵给定的极限。利用上下文最好的办法就是借助语言模型,并且将来技术提升的关键就是看谁能准确而有效地建立数学模型。在这里插入图片描述

拼音转汉字的算法和在导航中寻找最短路径的算法相同,都是动态规划。每一个拼音可以对应多个汉字,把一个拼音串对应的汉字按每个字所对应拼音在拼音串中的位置连起来,就是一张有向图。从第一个字到最后一个字可以组成很多很多句子,每一个句子和图中的一条路径一一对应,拼音输入法就是根据上下文在给定拼音的条件下找到一个最优的句子,即找从起点到终点的一条最短路径。在这里插入图片描述
汉字的输入本身就是人和计算机之间的通信,应当遵循通信的数学模型。

第22章 自然语言处理的教父马库斯和他优秀的弟子们

本章主要讲是在自然语言处理方面将从基于规则的研究方法转到基于统计的研究方法发扬光大的马库斯和他优秀的弟子们。马库斯在宾夕法尼亚大学的工作证明统计的方法比规则的方法更适合对自然语言做“深入的”分析。他比很多同行更早地发现了建立标准语料库在自然语言处理研究中的重要性。其中最著名的语料库是LDC,随着后面的发展又建立了语音,机器翻译等很多数据库。放手让博士生研究自己感兴趣的课题,这是马库斯之所以桃李甲天下的原因。作为一个管理者,马库斯将宾夕法尼亚大学规模很小的计算机系发展成在学术界具有盛名和影响力的强系。
柯林斯和布莱尔都是从马库斯实验室走出来的年轻一代精英,柯林斯追求完美,在一个问题研究到极致,执著追求完善甚至可以说达到完美的程度。他做的文法分析器出发点不是验证一个结论,而是做一个世界上最好的分析器。他的博士论文堪称自然语言处理领域的范文,没有任何专业知识的人,都可以轻易的读懂他复杂的方法。和柯林斯对立面的典型就是他的师兄布莱尔,他的成名作是基于变换规则的机器学习方法,他追求简单的研究方法,能在短时间内大致摸清每种方法的好坏。

第23章 布隆过滤器

计算机中的集合都是用哈希表来存储的,优点是快速准确,缺点是耗费存储空间。但是集合规模巨大时,哈希表存储效率低的问题就显现出来了,可以使用布隆转换器来节省存储空间,它只需要哈希表1/8到1/4的大小就能解决同样的问题。布隆过滤器的映射方式如下:在这里插入图片描述
布隆过滤器不会漏掉黑名单中的任何可疑地址,但存在极小的可能误判。布隆过滤器的好处在于快速、省空间,但有一定误识别率。补救的办法是在建立一个白名单,存储可能被误判的邮件地址。

第24章 马尔可夫链的扩展—贝叶斯网络

贝叶斯网络是一个加权的有向图,从数学的层面讲,是马尔可夫链的拓展。从认识论的层面看,贝叶斯网络克服了马尔可夫链那种机械的线性的约束,可以准确地描述事件之间的相关性。在网络中,每个节点的概率都可以用贝叶斯公式计算,因此称为贝叶斯网络,也叫信念网络。使用贝叶斯网络必须先确定这个网络的拓扑结构,然后知道各个状态之间相关的概率,得到拓扑结构和这些参数过程统称为训练。
贝叶斯网络可以用于基于统计的模型分析文本,从中抽取概念,分析主题。在生物统计,图像处理,决策支持系统和博弈论中都有广泛的应用。生活中的所有事情只要只要用心观察都可以转化成一定数学模型,来进行我们的推理和预算,更好地为我们日常生活服务。

小结

对之前看过的章节进行了回顾,对笔记进行了补充。
阅读了一些与数据挖掘有关的文章。数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一门综合性的学科,根据需求进行编程,从而获得需要的信息。
利用数据挖掘进行常用的方法有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等。①分类:按照特征将数据库中的数据分成不同的类,然后根据不同的特征进行相应的操作。②回归分析:主要用于研究数据序列的趋势特征、对数据序列的预测和数据之间的相关性等问题。③聚类:把一组数据按照相似性和差异性分为几个类别,使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。④关联规则:是为了描述数据库中各个数据项之间的关系,比如营销案例中出现过的小孩尿布和啤酒的案例。⑤特征:针对某一类型客户对其总体特征进行描述。⑥Web页挖掘:利用Web的大量数据进行分析并根据结果发现潜在的商机或危险。
分类与聚类的区别:分类是指事先定义好类别,数据库中的数据按照类别分类,类别数确定不变。聚类事先没有确定类别,按照数据的相关性进行分类,类别数无法确定。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值