beautiful math
文章平均质量分 79
青盏
这个作者很懒,什么都没留下…
展开
-
数学之美:谈谈中文分词
西方语言中词语有明显的分隔符,而对于中日韩等语言,词与词之间没有明确分界。而语言模型又是建立在词的基础上的,这就导致分词非常有必要。 中文分词最早方法是“查字典”,就是从左到右根据字典查询,遇到字典有的词就标出来,遇到不认识的就分成单个词。但这种方法存在一定的缺陷,如“发展中国家”,根据查字典将会分成“发展”、“中国”、“家”。明显不对。 后来有了基于统计模型的分词方法。假设某个句子可以有以下...原创 2018-08-28 00:47:23 · 806 阅读 · 0 评论 -
数学之美:条件随机场与句法分析
句法分析就是为每个句子建立语法树。最初的句法分析,受形式语言的影响,使用的是规则方法,不断使用规则树从底向上的将树的末端节点向上合并,直到合并出根节点。当然也可以使用自顶向下的方法。但这种方法不能一次选对,一旦选错一步,就需要回溯很多步,因此计算复杂度特别高。后来出现在选择文法规则时,坚持一个原则:让被分析的句子的语法树概率达到最大。这方法虽然简单,却降低了复杂度,提高了准确度。而且在句法分析和数...原创 2018-09-24 11:57:16 · 831 阅读 · 0 评论 -
数学之美:矩阵运算和文本处理中的两个分类问题 奇异值分解
数学一直以来由于脱离生活,让人觉得没有什么作用。我在高中的时候也是这样想的,直到大学发现几乎所有科目的背后都有着数学理论知识的支持。这迫使我想要将自己所学的数学知识同实际结合起来,帮助自己对数学有个更为全面的理解。这也是我看这本书的原因。前面所提的新闻分类问题,其实走的是将文本变成字词,将字词变成数字,从而方便计算机计算的流程。理论上说这种方法很好,但存在的实际问题就是计算量过于庞大。当新闻数...原创 2018-09-14 10:58:12 · 939 阅读 · 1 评论 -
数学之美:维特比和维特比算法
维特比算法,现代数字通信中使用最频繁的算法,也是很多自然语言处理中的解码算法。由维特比大牛创建,今天的CDMA 3G通信标准就是由维特比创建的高通公司制定的。厉害的不行。维特比算法是一种特殊的但应用最广的动态规划算法。利用动态规划可以解决任何一个图中的最短路径问题,而维特比算法则是针对一种特殊的图——篱笆网络的有向图的最短路径问题提出的。之所以重要,是因为凡是使用隐马尔可夫模型描述的问题都可以用它...原创 2018-09-25 11:11:29 · 11094 阅读 · 1 评论 -
数学之美:期望最大化算法
1、极大似然和EM算法2、EM算法存在的意义是什么?前面多次介绍到文本分类,一是互联网各方面都会用到这些技术,另一方面这些技术几乎可以用到所用分类中。如用户分类、词分类、商品分类、甚至生物特征和基因分类等。在文本分类中有个极其强大的技术:期望最大化算法。文本的自收敛分类:期望最大化和收敛的必然性:我们的目的是相近的点都被聚集到一个类别。同一类中各个点到中心的平...原创 2018-09-25 14:57:12 · 1432 阅读 · 0 评论 -
数学之美:各个击破算法和Google云计算的基础
云计算的一个关键性问题就是如何把一个非常大的问题,自动分解到许多计算能力不是很强大的计算机上。Google针对此问题提出一个工具MapReduce,其基础就是算法中常见的分治算法。假设要对一个长度为N的数组进行排序,如果采用两两比较的方式(冒泡排序),复杂度为O(N2),不仅笨还慢,如果是一个非常大的数组,一台计算机也无法完成。用分治算法,将这个大数组分解成两个小数组,再分别对一半进行排序,待...原创 2018-09-25 15:30:07 · 786 阅读 · 0 评论 -
数学之美:信息指纹及其应用
前面在介绍网络爬虫时说道为了避免重复爬取,爬虫需要维护一个url表来标记是否已经访问该url。一个问题是这个url只是我们用于验证是否访问,而没有其他作用。但网页url长度很长,占据100字节左右,这大大浪费了资源。所以需要我们对url进行信息压缩,要求压缩后的url占据内存少,且不会出现重复问题。这就像对信息建立类似人类的指纹,用于验证信息。这就涉及到加密算法md5,sha256等的使用。相信大...原创 2018-09-15 11:31:06 · 1222 阅读 · 0 评论 -
数学之美:拼音输入法的数学原理
现代输入法大多首选拼音输入法,其原因便是拼音符合人的认知规律,尽管需要多输入几个字母,但速度并不慢。它不需要专门去学习,输入时不用中断思维去考虑,而且对于前后鼻音具有很好的冗余性。而拼音转汉字的算法与导航中的寻找最短路径是相同的。乍一看,难以想象。但可以将拼音转汉字看成一个通信问题,模型对输入的字母转换成文字。这就类似于翻译模型了。每个拼音可以对应多个字,把一个拼音串对应的汉字连接起来,就...原创 2018-09-20 11:08:38 · 2665 阅读 · 0 评论 -
NLP 自然语言处理 集束搜索beam search和贪心搜索greedy search
在数学之美中曾介绍维特比算法,其根据自然语言句子生成的特性,利用动态规划方法,找到生成的最大可能性句子。但其同样存在弊端,如如果字典的长度非常大的话,那么查找的状态将会非常多,影响效率。而在句子生成中还有些如下方法:贪心搜索(greedy search):贪心搜索最为简单,直接选择每个输出的最大概率,直到出现终结符或最大句子长度。集束搜索(beamsearch):集束搜索可以...原创 2018-10-11 15:07:36 · 22988 阅读 · 1 评论 -
数学之美:布隆过滤器 && BitMap
漫画:什么是Bitmap算法?在判断垃圾邮件时,我们需要判断当前邮件是否在垃圾邮件集合中。而判断一个元素是否存在集合中,最好还是使用哈希表。但如果这个集合非常庞大,如需要存储一亿个邮件地址。使用哈希表将每个邮件地址哈希成8个字节,加上哈希表的存储效率只有50%,那么总共就需要1*8*2=16亿字节,也就是1.6GB的内存。如果是几十亿,那么需要上百GB内存,一般计算机是无法满足的。而布隆过...原创 2018-09-21 11:37:50 · 5042 阅读 · 1 评论 -
数学之美:马尔科夫链的扩展-贝叶斯网络 词分类
前面介绍的马尔科夫链是一种状态序列,但在实际中,各个事物之间不仅使用链串行起来的,而是互相交叉,错综复杂。因此通过各个事物之间的联系,可以将马尔科夫链推广至图论中。没想到贝叶斯网络还可以用于词分类。在前面我们介绍到通过使用SVD可以对文本进行分类,如果把文本和关键词的关联矩阵转90度。进行奇异值分解,或者对每个词建立文本向量,再聚类。那么我们得到的就是关于词的分类,称之为概念。显然一个概念...原创 2018-09-23 11:14:58 · 1067 阅读 · 0 评论 -
数学之美:余弦定理和新闻分类
新闻特征向量:和前面一样,显然衡量两个新闻的相似性要根据新闻中的词的相似性。如果两个新闻中出现相同的词较大,相似的可能性就较大。当然这其中的类似于“的”的词应该占据较小权重。这就和我们前面提到的度量关键词和网页相关性问题非常相似。TF-IDF应该是个不错的算法。我们应该建立一个字典,然后根据TF-IDF算法对字典中每个词赋予权重,形成如下特征向量,向量中每一项代表这个词对当前文章的贡献度:...原创 2018-09-13 11:22:01 · 2675 阅读 · 0 评论 -
数学之美:谈谈最大熵模型
一个色子,当对其一无所知时,我们会假设色子每个面出现的概率为1/6;如果已知一个面的概率为1/3,则我们会假设其他面概率为2/15。当我们对一个随机事件的概率进行预测时,我们的预测应当满足所有的已知条件,而对其他未知情况不要做任何主观假设,在这种情况下,概率分布均匀,预测的风险最小,这时的概率分布的信息熵最大。因此叫做最大熵模型。这就是我们通常所说的不要把鸡蛋放在一个篮子里。朴素的理解是当我们遇到...原创 2018-09-18 11:06:11 · 625 阅读 · 0 评论 -
数学之美:信息的度量和作用 KL散度 自信息 熵 相对熵 KL divergence entropy
定义自信息: 香农认为,信息可以消除我们对于事物认识上的不确定性,越不可能发生的事情一旦发生就可以消除较大的不确定性,所以应当含有较多的信息。由此,香农认为,应当用事件的发生概率确定该事件所含的信息量,概率越小的事件所含的信息量越大,而必然事件的信息量最小,指定为0。 熵: 想要知道一个分布的信息量,就要先确定一个描述信息量的量纲。 在信息论学科中,提出了熵的概念,记作 H。 一个概率原创 2018-03-01 13:40:51 · 1253 阅读 · 0 评论 -
数学之美:零散
字母、数字和文字其实是信息编码的不同单位:如果人脑中的思维是语义信息的话,那么语法规则就是编解码的算法,把思想用语言编码一次说出来,被听者再使用这门语言解码得到蕴含的信息。这跟计算机处理自然语言非常类似。早些年研究人员试图使用计算机模拟人脑,结果一无所获。直到找到基于数学模型和统计的方法,自然语言处理才进入到第二阶段。早期研究人员认为要想理解自然语言首先需要分析语句,然后获取语义。因此试图使用...原创 2018-08-25 23:47:16 · 197 阅读 · 0 评论 -
数学之美:统计语言模型
一个有意义的句子是由一定顺序的词组成,则一个句子出现的可能性可以使用如下表示: 这是典型的条件概率理论,也就是说当我们知道第一词w1后,要预测下一个w2的概率时是在基于已知词w1的情况下预测的。但是当一个句子很长时,越是后面的词,其条件概率的类型越多,难以估算。因为在这个词前面有n-1个词,这也就是说P(wn|w1,w2…wn-1)的种类由于每个wi都有字典长度个数L的可能性,导致变量空间是...原创 2018-08-26 00:22:47 · 829 阅读 · 0 评论 -
数学之美:隐马尔可夫模型
前面提到,语言其实就是信息传递的编解码工具。 如果说话人说的是汉语,需要翻译成英语。那么机器翻译就是充当理解汉语的同时将汉语翻译成英语的中间角色。如果用概率论来解释的话,就是在我们接收到信息序列s后,在理解s的情况下,推测最有可能出现的信息序列o。条件概率形式为: 使用贝叶斯公式可以转为: 这样,P(o|s)表示在接收到s后变成o的可能性。p(s)表示s在接收端合理的可能性。p(...原创 2018-09-02 10:29:05 · 1023 阅读 · 0 评论 -
数学之美:PageRank-google民主式网页排名技术
PageRank:pagerank是一种很简单的思想,在互联网中如果一个网页被许多其他网页所链接,说明它普遍受到信任和依赖。那它的排名就高。当然实际算法更要复杂一点。比如不同的其它网站其可信度是不一样的。那些排名高的网站具有更高的可信度,应该赋予大的权重。该想法主要由佩奇提出。这时有一个问题,当前网页的排名需要根据其它网页排名的高低赋予不同权重来计算当前网页的排名。这就变成了先有蛋还是...原创 2018-09-08 09:41:55 · 660 阅读 · 0 评论 -
数学之美:地图和本地搜索的基本技术-有限状态机和动态规划
地址识别与分析:要想进行位置搜索,首先要将用户输入的地址识别开来,然而不同用户输入习惯不同,会导致同一个位置具有不同的输入表达,如腾讯在深圳的公司:这样地址如果直接写解析程序肯定比较复杂,而且地址还存在上下文相关性。如上海市北京东路和南京市北京东路。要严格依赖上下文。但是关于上下文的分析复杂且耗时。所幸的是由于地址的状态空间不大,有种较好的解决办法就是有限状态机。如上图如果能够...原创 2018-09-12 10:58:00 · 696 阅读 · 0 评论 -
数学之美:搜索引擎的反作弊问题
最早作弊手段是重复罗列关键词。后来随着PageRank算法出现后,又出现专门买卖链接的作弊手段。搜索反作弊的方法也分成两种境界:术和道。术的方法就是分析作弊案例,找出规律,然后清除它;道则是透过作弊问题,追本溯源找到作弊动机和本质,从本质上解决问题。搜索引擎作弊的本质是人为的对搜索排序算法的信息加入噪声。一种解决办法是提高算法的抗噪声能力;另一种则是像通信原理中一样除去噪声,还原本来排名。如果...原创 2018-09-17 10:42:27 · 1044 阅读 · 0 评论 -
数学之美:如何确定网页和查询的相关性 TF-IDF
前面介绍了如何下载网页并建立索引。但通过关键词和索引的相关性,一个搜索引擎仍然能够提供几十万的页面,这时候就需要如何把好的页面排序在前面。前面已经介绍通过PageRank来衡量页面质量。显然PageRank只能找出质量好的页面。但无法衡量该页面与关键词的匹配程度,这就需要一种技术来衡量页面与查询的相关性。科学度量“IF-IDF”:当我们知道一个关键词“原子能的应用”时,显然,直觉上那些网页...原创 2018-09-11 11:22:34 · 512 阅读 · 0 评论 -
数学之美:图论与网络爬虫
如果将互联网比成一个大的图的话,那网络爬虫就是从某个网页出发,用图的遍历算法,自动的访问每一个网页,并保存它们。显然如今的互联网非常庞大,仅仅几台服务器是无法完成这些任务的。因此一个商业网络爬虫需要成千上万的服务器,并通过高速网络连接起来。如何建立这样复杂的网络系统,协调服务器之间的任务就是网络设计和程序设计的艺术了。如何构建一个网络爬虫?使用BFS还是DFS?搜索引擎的网络爬虫问题应...原创 2018-09-07 11:13:01 · 927 阅读 · 0 评论 -
机器学习中的小数学知识
如何通俗易懂地解释「协方差」与「相关系数」的概念转载 2018-07-16 20:24:09 · 507 阅读 · 1 评论