《数学之美》书摘

最新推荐文章于 2024-07-22 14:34:25 发布

恬淡为上

最新推荐文章于 2024-07-22 14:34:25 发布

阅读量1k

点赞数

分类专栏：阅读记忆文章标签：数学计算机科学读书笔记搜索引擎动态规划

本文链接：https://blog.csdn.net/lee_pc/article/details/12074695

版权

阅读记忆专栏收录该内容

4 篇文章 0 订阅

订阅专栏

通信时，如果信道较宽，信息不必压缩就可以直接传递；二如果信道很窄，信息在传递前需要尽可能地压缩，然后在接收端进行解压缩。

任何一种语言都是一种编码的方式，而语言的语法规则是编解码的算法。

隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。在正常的马尔可夫模型中，状态对于观察者来说是直接可见的。这样状态的转换概率便是全部的参数。而在隐马尔可夫模型中,状态并不是直接可见的，但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。

隐含马尔科夫模型最初应用于通信领域，继而推广到语音和语言处理中，成为连接自然语言处理和通信的桥梁。同时，隐含马尔科夫模型也是机器学习主要工具之一。和几乎所有的机器学习的模型工具一样，它需要一个训练算法（鲍姆-韦尔奇算法）和使用时的解码算法（维特比算法）。

信息的作用在于消除不确定性，自然语言处理的大量问题就是找相关的信息。

搜索引擎大致需要做这几件事：自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序。

图论〔Graph Theory〕是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形，这种图形通常用来描述某些事物之间的某种特定关系，用点代表事物，用连接两点的线表示相应两个事物间具有这种关系。

广度优先搜索（Breadth-First Search,BFS):BFS是从根节点开始，沿着树的宽度遍历树的节点。如果所有节点均被访问，则算法中止。

深度优先搜索算法（Depth-First-Search），是搜索算法的一种。是沿着树的深度遍历树的节点，尽可能深的搜索树的分支。当节点v的所有边都己被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点，则选择其中一个作为源节点并重复以上过程，整个进程反复进行直到所有节点都被访问为止。

哥尼斯堡七桥问题：18世纪德国哥德堡有一条河，河中有两个岛，两岸于两岛间架有七座桥。问题是：一个人怎样走才可以不重复的走遍七座桥而回到原地。

对于图中的每一个顶点，它相连的边的数量定义为它的度(Degree)。

定理：如果一个图能够从一个顶点出发，每条边不重复地遍历一遍回到这个顶点，那么每一个顶点的度必须为偶数。

互联网就是一张大图，每个网页当做一个节点，超链接当做连接网页的弧。有了超链接，我们可以从任何一个网页出发，用图的遍历算法，自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫(Web Crawlers).

构建网络爬虫的工程要点：

首先，用BFS还是DFS?网络爬虫对网页遍历的次序不是简单的BFS或者DFS，而是有一个相对复杂的下载优先级排序的方法。管理这个优先级排序的子系统成为调度系统(Scheduler)。由它来决定当一个网页下载完成后，接下来下载哪一个。当然在调度系统里需要存储那些已经发现但是尚未下载的网页的URL，它们一般存在一个优先级别里。而用这种方式遍历整个互联网，在工程上和BFS更相似。因此，在爬虫中，BFS的成分多一些。

第二，页面的分析和URL的提取。现在很多网页是用一些脚本语言生成的。打开网页的源代码，URL不是直接可见的文本，而是运行这一段脚本后才能得到的结果。因此，网络爬虫的页面分析就变得复杂了很多，它要模拟浏览器运行一个网页，才能得到里面隐含的URL。

第三，记录哪些网页已经下载过的小本本--URL表。采用哈希表，判断网页的URL是否在表中，以免重复下载。

搜索结果排名取决于两组信息，关于网页的质量信息（Quality），和这个查询与每个网页的相关性信息（Relevance）。

PageRank算法的核心思想：在互联网上，如果一个网页被很多其他网页所链接，说明它受到普遍的承认和信赖，那么它的排名就高。

TF-IDF(Term Frequency/Inverse Document Frequency，词汇频率/逆文本频率指数)的概念被公认为信息检索中最重要的发明。在搜索、文献类和其他相关领域有着广泛的应用。

IDF的概念就是一个特定条件下关键词的概率分布的交叉熵。

智能手机的定位和导航功能，里面的关键技术只有三个：

第一是利用卫星定位；第二是地址的识别；第三，根据用户输入的起点和终点，在地图上规划最短路线或者最快路线。

有向状态机是一个特殊的有向图，它包括一些状态（节点）和连接这些状态的有向弧。

每一个有限状态机都有一个开始状态和一个终止状态，以及若干中间状态。每一条弧上带有从一个状态进入下一个状态的条件。比如，当前的状态是“省”，如果遇到一个词组和（区）县名有关，就进入状态“区县”；如果遇到的下一个词组和城市有关，那么就进入“市”的状态，如此等等。如果一条地址能从状态机的开始状态经过状态机的若干中间状态，走到终止状态，那么这条地址就有效，否则无效。例如：“北京市双清路83号”有效，而“上海市辽宁省马家庄”则无效。

使用有限状态机识别地址，关键要解决两个问题，即通过一些有效的地址建立状态机，以及给定一个有限状态机后，地址字串的匹配算法。

全球导航的关键算法是计算机科学图论中的动态规划(Dynamic Programming)的算法。

动态规划过程是：每次决策依赖于当前状态，又随即引起状态的转移。一个决策序列就是在变化的状态中产生出来的，所以，这种多阶段最优化决策解决问题的过程就称为动态规划。大致上，若要解一个给定问题，我们需要解其不同部分（即子问题），再合并子问题的解以得出原问题的解。通常许多子问题非常相似，为此动态规划法试图仅仅解决每个子问题一次，从而减少计算量：一旦某个给定子问题的解已经算出，则将其记忆化存储，以便下次需要同一个子问题解之时直接查表。

在图论中，一个抽象的图包括一些节点和连接它们的弧。如果再考虑每条弧的长度，或者说权重，那么这个图就是加权图（Weighted Graph）。中国公路网就是一个很好的“加全图”例子：每个城市是一个节点，每一条公路是一条弧。图中弧的权重对应于地图上的距离，或者是行车时间、过路费金额，等等。

信息指纹：任何一段信息（文字、语音、视频、图片等），都可以对应一个不太长的随机数，作为区别它和其他信息的指纹。只要算法设计的好，任何两端信息的指纹都很难重复，如同人类的指纹一样。

最大熵原理：需要对一个随机事件的概率分布进行预测时，我们的预测应当满足全部已知的条件，而对未知的情况不要做任何主观假设。在这种情况下，概率分布最均匀，预测的风险最小。因为这时概率分布的信息熵最大，所以人们称这种模型叫做“最大熵模型”。我们常说，不要把所有的鸡蛋放到一个篮子里，其实就是最大熵原理的一个朴素的说法，因为当我们遇到不确定性时，就要保留各种可能性。

输入法输入汉字的快慢取决于对汉字编码的平均长度，用通俗的话来讲，就是击键次数乘以寻找这个键所需要的时间。单纯地减少编码长度未必能提高输入速度，因为寻找一个键的时间可能变得较长。提高输入法的效率在于同时优化这两点。

香农第一定理：对于一个信息，任何编码的长度都小于它的信息熵。

布隆过滤器背后的数学原理在于两个完全随机的数字冲突的概率很小，因此，可以在很小的误识别率条件下，用很少的空间存储大量的信息。常见的补救误识别的办法是再建立一个小的白名单，存储那些可能被别误判的信息。由于布隆过滤器只有简单的算术运算，因此它的速度很快，使用方便。

马尔可夫链：描述了一种状态序列，其每个状态值取决于前面有限个状态。这种模型，对很多实际问题来讲是一种很粗略的简化。在现实生活中，很多事物相互的关系并不能用一条链来串起来，它们之间的关系可能是交叉的、错综复杂的。

贝叶斯网络：假定在这个图中马尔科夫假设成立，即每一个状态只和与它直接相连的状态有关，而和它间接相连的状态没有直接关系，那么它就是贝叶斯网络。

所有这些关系，都可以有一个量化的可信度，用一个概率描述。也就是说贝叶斯网络的弧上可以有附加的权重。马尔可夫假设保证了贝叶斯网络便于计算。

从数学的层面讲，贝叶斯网络是一个加权的有向图，是马尔可夫链的扩展。而从认识论的层面看：贝叶斯网络克服了马尔可夫链那种机械的线性约束，它可以把任何有关联的事件统一到它的框架下面。247

利用动态规划，可以解决任何一个图中的最短路径问题。

维特比算法是一个特殊但应用最广的动态规划算法。针对一个特殊的图——篱笆网络的有向图的最短路径问题而提出。它之所以重要，是因为凡是使用隐含马尔科夫模型描述的问题都可以用它来解码，包括今天的数字通信、语音识别、机器翻译、拼音转汉字、分词等。

搜索广告的三个阶段：

1.按广告主出价高低来排名的竞价排名广告。

2.结合出价和点击率（Click Through Rate,CTR）这两点来决定广告的投放。

3.全局的进一步优化。

元计算的一个关键问题是如何把一个非常大的计算问题，自动分解到许多计算能力不是很强大的计算机上，共同完成。google针对这个问题给出的解决工具是一个交MapReduce的程序，其根本原理是分治算法（Divide-and-Conquer).

恬淡为上

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《数学之美》书摘

通信时，如果信道较宽，信息不必压缩就可以直接传递；二如果信道很窄，信息在传递前需要尽可能地压缩，然后在接收端进行解压缩。任何一种语言都是一种编码的方式，而语言的语法规则是编解码的算法。隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析
复制链接

扫一扫

专栏目录