数学之美
文章平均质量分 61
George&Rita
星光不负赶路人!
展开
-
《数学之美》第二十七章——期望最大化算法
1 文本的自收敛分类之前介绍过两种文本分类的算法,具体如下:事先设定好类别,然后进行文本分类自底向上对文本进行两两聚类但是对于第一种方法,需要事先设定好类别。第二种方法的收敛时间比较长,因此这两种方法都是存在一定的局限性。下面介绍一种自收敛的算法。主要步骤如下:首先随机挑选K个聚类中心,如下图所示:计算每个点到每个聚类中心的距离,然后将这些点归到距离最近的一类中。然后重新计算每一个类的聚类中心。假定某一类中的v,每一个点有多个维度,即最简单的方法就是对每个维度计算均值,原创 2021-05-13 09:57:03 · 280 阅读 · 0 评论 -
《数学之美》第二十六章——维特比算法
1 维特比算法维特比算法其实就是一种特殊的动态规划算法,主要针对的是篱笆网络的有向图最短路径问题提出的。例如在输入法中,假定用户输入的拼音是y1,y2,…,yN,对应的是x1,x2,…,xN。根据之前章节得到的工具:可以将上述转换为一个隐马尔可夫模型,如下图而对于一个拼音,可能会对应多个汉字。这里不妨进行抽象,用符号xij表示状态xi的第j个可能的值,就得到如下图所示的篱笆网络:从第一个状态都最后一个状态所产生的所有路径都有可能产生我们观察到的输出序列Y。我们要做的就是找到概率最大的那条路径原创 2021-05-12 11:25:22 · 261 阅读 · 0 评论 -
《数学之美》第二十四章——贝叶斯网络
在阅读本章之前,我个人觉得需要自己先去了解一下贝叶斯和全概率公式和贝叶斯网络的知识,这样子读起来会比较容易。这里推荐两个B站的视频作为入门:1、贝叶斯和全概率公式介绍(极力推荐、特别好理解)2、贝叶斯网络1 贝叶斯网络贝叶斯网络实际上可以看成是马尔科夫链的升级版。马尔科夫链描述了一种状态序列,其每个状态值取决于前面有限个状态。而在实际生活中,各个事物之间是很难只用一条链串接起来的,是错综复杂的,如下图就是一个贝叶斯网络:在贝叶斯网络中,有的状态是直接相连的,说明是存在因果关系的。对于没有直原创 2021-05-09 21:25:34 · 553 阅读 · 1 评论 -
《数学之美》第二十三章——布隆过滤器
1 布隆过滤器的原理首先,布隆过滤器的作用主要是可以用来检索一个元素是否在一个集合中。书本上提到的例子是检验某个电子邮箱是否存储在黑名单中,这个黑名单就可以使用布隆过滤器来进行实现。基本原理如下图所示:首先将存储地址的每个二进制位都归零。F1,F2,…,F8是8个随机数生成器,这些生成器可以根据电子邮箱地址生成8个随机数f1,f2,…,f8。之后再将这8个随机数f1,f2,…,f8通过8个不同的哈希函数映射到存储空间的某个位上,将这个位置置为1,就完成了存储操作。当需要进行查询的时候,根据新原创 2021-05-09 16:05:08 · 248 阅读 · 0 评论 -
《数学之美》第二十一章——拼音输入法的数学原理
提高输入法的效率主要在于两方面:输入汉字的平均击键次数接近理论上的最小值寻找一个键的时间不要太长1. 输入法与编码讨论了全拼输入法对比于双拼输入法的优势,主要在于双拼输入法有更多的歧义性,虽然可以减少平均击键次数,但是用户难以记忆,因此现在全拼输入法已经占据了大部分的市场。2. 输入一个汉字需要敲多少次键—谈谈香农第一定理在GB2312简体中文字符集中一共有6700多个常用汉字,为了节省存储空间,因此通常是会采用不定长编码。根据哈夫曼树的方法,对于常用的汉字采用短编码,不常用的汉字采用长编原创 2021-05-08 11:45:20 · 711 阅读 · 0 评论 -
《数学之美》第二十章——谈谈最大熵模型
1 最大熵原理和最大熵模型最大熵原理指出:对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。概率分布最均匀的时候,预测的风险最小。当我们遇到不确定性时,就要保留各种可能性。匈牙利著名数学家希萨证明,对任何一组不自相矛盾的信息,这个最大熵模型不仅存在,而且是唯一的。此外,它们都有同一个非常简单的形式——指数函数....原创 2021-05-07 11:53:15 · 2180 阅读 · 0 评论 -
《数学之美》第十六章——信息指纹及其应用
1 信息指纹 信息指纹实际上就是指使用一个随机数来标识一个事物。通过这个随机数,我们就可以比较两个事物的相似性。 常用的产生伪随机数的算法有早期的PRNG算法、梅森旋转算法等等。现在我们也常用MD5算法以及SHA-1算法。2 信息指纹的用途下面介绍几个信息指纹方面的具体应用。2.1 集合相同的判定当我们确定两个集合是否相同时,通常会有以下几种方法。两两进行比较,时间复杂度为O(原创 2021-05-06 21:56:12 · 541 阅读 · 0 评论 -
《数学之美》第十五章——矩阵运算和文本处理中的两个分类问题
1 文本和词汇的矩阵 在自然语言处理中,最常见的两个分类问题分别是,将文本按主题归类和将词汇表中的字词按意思归类。 显然,我们可以用上一节的余弦定理来进行计算得到结果,但是耗时会比较长。 因此,本节采用奇异值分解(SVD) 的方法来进行解决。 &n原创 2021-05-06 17:38:30 · 355 阅读 · 1 评论 -
《数学之美》第十四章——余弦定理和新闻的分类
1 新闻的特征向量 我们在新闻页面中浏览新闻的时候,通常会有很多模块,在这些模块里面的新闻都是具有一定相关性的。如果单纯依靠人工对大量的新闻进行分类显然是不可能的,因此需要让计算机能够“算”新闻,从而将新闻进行分类。 我们知道,同一类新闻用的词是比较相似的,不同类的新闻用词会存在较大的不同。并且一篇文章中,不同的词重要性程度也不相同。 因此我们可以利用之前学习的TF原创 2021-04-21 17:05:16 · 673 阅读 · 0 评论 -
《数学之美》第十二章——有限状态机和动态规划 地图与本地搜索的核心技术
智能手机的定位和导航功能,其实只有三项关键技术:利用卫星定位,这一点传统的导航仪都做得到地址的识别根据用户输入的起点和终点,在地图上规划最短路线或者最快路线1 地址分析和有限状态机我们在寄快递的时候通常会要求用户填写地址,但是用户填写的地址五花八门,但是快递总能成功地寄送到目的地,这是因为快递员能够进行识别。但是如何使用机器进行识别呢,这并不是一件容易的事情,因为地址是上下文相关的。例如这时就需要根据上下文判断语义的正确性。因为地址的上下文相关性,所以这里应用了有限状态机。有限状态原创 2021-04-17 13:55:29 · 418 阅读 · 0 评论 -
《数学之美》第十一章——如何确定网页和查询的相关性
在前面几章介绍了如何下载网页、建立索引、确定网页质量的度量。在这节中,将会讨论如何确定网页和查询的相关性,找到最相关的网页。影响搜索引擎好坏的因素有好多,主要可以归纳成以下几类:完备的索引对网页质量的度量用户偏好确定一个网页和某个查询的相关性的方法1 搜索关键词权重的科学度量TF-IDF下面以一个简单的例子来阐述,例如查询“原子能的应用”。通过分词技术,我们可以将这个短语分解成“原子能-的-应用”三个词。并且我们可以比较容易想到,三个词出现较多的网页会比三个词出现较少的网页相关性高。原创 2021-04-15 15:54:23 · 284 阅读 · 1 评论 -
《数学之美》第十章——PageRank Google的民主表决式网页排名技术
对于搜索引擎搜索结果的排名取决于两组信息:关于网页的质量信息、每个网页与这个查询的相关性。1 PageRank算法的原理PageRank算法是由Google创始人拉里佩奇和谢尔盖布林提出的网页排名算法。主要思想是采用的民主表决方式。在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高,这就是PageRank算法的核心思想。同时在PageRank算法中,也考虑了网页排名高的网站贡献的链接权重大。比如举个例子,一个网页的排名分数就等于所有指向这个网页的其他网页的权重之原创 2021-04-14 16:58:27 · 431 阅读 · 0 评论 -
《数学之美》第九章——图论和网络爬虫
1 图论对于图的遍历方式,最简单的应该就是深度优先遍历(dfs)和广度优先遍历(bfs)。2 网络爬虫其实网络就相当于一个图,每个页面都可以看作一个节点。当我们对网络中的网页采取某种遍历算法,自动地访问到每一个网页并把它们保存起来。完成这个功能的程序就叫作网络爬虫(Web Crawlers)。3.1.2 构建网络爬虫的工程要点首先,对于遍历网络中的每一个节点,其实使用dfs和bfs都是可以完成的。但是因为网络中的网页不是静态的,如何在有限的时间内,获取更多有意义的网页就成为我们考虑的关键了。因此,原创 2021-04-14 16:08:16 · 283 阅读 · 1 评论 -
《数学之美》第六章——信息的度量和作用
1 信息熵一条信息的信息量与其不确定性有着直接的关系。如何一件事情非常不确定,我们要搞清楚就需要了解大量的信息。如果一件事情了解较多,则只需要少量信息就可以搞清楚。可以认为,信息量就等于不确定性的多少。下面举一个例子来解释信息量如何进行度量:但是对于冠军球队的猜测其实信息量可能是更少的,因为每支球队的夺冠概率不一样。因此我们可以现在概率高的球队中进行猜测。香农指出,它的准确信息量应该是:其中,p1,p2,…,p32分别是这32支球队夺冠的概率。香农把它称为“信息熵”,一般用符号H表示,单位原创 2021-04-11 11:28:29 · 511 阅读 · 0 评论 -
《数学之美》第一章——文字和语言vs数字和信息
2. 文字和数字文字本身的载体是石头还是纸张并不重要,它所承载的信息才是最重要的。信息的冗余是信息安全的保障。罗塞塔石碑上的内容中,同一个信息被重复了三次,只要有一份完整保存下来,原有的信息就不会丢失,这对信道编码有指导意义。(信道编码指发送端在发送数据时添加冗余数据,这些冗余数据与原始数据有关,可以进行一定的纠错和检查功能。)3. 文字和语言背后的数学语言学研究方法的问题:语言(从真实的语料出发)OR 语法(从规则出发)。事实证明应从真实的语料出发。...原创 2021-04-07 17:19:36 · 191 阅读 · 1 评论 -
《数学之美》第五章——隐马尔可夫模型
1 通信模型一个典型的通信系统会包含着六要素(发送者,信道,接收者,信息,上下文和编码)。我们可以将通信模型和我们的自然语言处理工作联系起来。例如在语音识别中,我们就相当于通信模型中的发送者,我们说的话就是信息,并利用空气作为信道进行传输,计算机作为接收者去进行分析、理解。在通信中,如何根据接收端的观测信号o1,o2,o3,…来推测信号源发送的信息s1,s2,s3,…呢?只需要从所有的源信息中找到最可能产生出观测信号的那一个信息。利用概率论的知识,就是在已知o1,o2,o3,…的情况下,求得令条原创 2021-04-10 13:26:00 · 438 阅读 · 0 评论 -
《数学之美》第四章——谈谈分词
1 中文分词方法的改变下面先举一个简单的句子进行分词:“中国航天官员应邀到美国与太空总署官员开会”其中一种分词结果是(用斜线表示分割):“中国/航天/官员/应邀/到/美国/与/太空/总署/官员/开会”对于分词的方法,最简单的就是采用查字典的方法,这是由梁南元教授提出的。主要思想就是将句子从左到右进行扫描,遇到读《数学之美》——第三章,如果遇到复合词(“上海大学”)就找到最长的词匹配,遇到不认识的词就进行分割。这种方法可以解决80%左右的分词需求。但是遇到拥有二义性的词的时候就显得无能为力。例如短原创 2021-04-09 11:00:54 · 259 阅读 · 0 评论 -
《数学之美》第三章——统计语言模型
1. 用数学的方法描述语言规律语音识别中,计算机需要知道一个文字序列是否能构成一个大家理解而且有意义的句子,然后显示或打印给使用者。比如以下三个句子:美联储主席本*伯南克昨天告诉媒体7000亿美元的救助资金将借给上百家银行、保险公司和汽车公司。本*伯南克美联储主席昨天7000亿美元的救助资金告诉媒体将借给银行、保险公司和汽车公司上百家。联主美储席本*伯诉南将借天的救克告媒咋助资金70元亿00美给上百百百家银保行、汽车险公司公司和。如果是一个没有学习过自然语言处理的人,就会认为第一原创 2021-04-08 19:51:01 · 426 阅读 · 0 评论 -
《数学之美》第二章——从规则到统计
1.机器智能让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了。这种方法被称为图灵测试(Turing Test)。早期的20多年,全世界的科学家对计算机处理自然语言的认识都局限在人类学习语言的方式上,也就是用电脑模拟人脑。直到20世纪70年代,找到了基于数学模型和统计的方法,自然语言处理进入第二个阶段。早期的自然语言处理——基于语法规则的自然语言处理如分析下面一个简单的句子:我们可以通过句子的拆解...原创 2021-04-08 13:08:21 · 207 阅读 · 0 评论