数学之美
happylife1527
这个作者很懒,什么都没留下…
展开
-
数学之美系列之六:图论和网络爬虫
http://blog.csdn.net/zhz_2v/article/details/1676580 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用 Google Trends 来搜转载 2012-10-30 22:53:37 · 382 阅读 · 0 评论 -
数学之美系列之三:隐含马尔可夫模型在语言处理中的应用
前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。 自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、转载 2012-10-27 15:27:58 · 379 阅读 · 0 评论 -
数学之美系列之二:谈谈中文分词
上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串词: 中国 / 航天 / 官员 / 应邀 / 到 / 美国 / 与 / 太空 / 总署 / 官员 / 开会。 最容易想到的,也是最简单的分词办法就是查字典。这种方法最早是由北京航天航空大学的梁南元教授提出转载 2012-10-27 15:27:31 · 810 阅读 · 0 评论 -
数学之美系列之一:统计语言模型
http://blog.csdn.net/zhz_2v/article/details/1676565 前言 也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开发 Go转载 2012-10-27 15:27:00 · 492 阅读 · 0 评论 -
数学之美系列十五:繁与简 自然语言处理的几位精英
http://blog.csdn.net/zhz_2v/article/details/1676623 我在数学之美系列中一直强调的一个好方法就是简单。但是,事实上,自然语言处理中也有一些特例,比如有些学者将一个问题研究到极致,执著追求完善甚至可以说完美的程度。他们的工作对同行有很大的参考价值,因此我们在科研中很需要这样的学者。在自然语言处理方面新一代的顶级人物麦克尔 · 柯林斯 (Michae转载 2012-10-31 22:51:01 · 487 阅读 · 0 评论 -
数学之美系列之十四:谈谈数学模型的重要性
http://blog.csdn.net/zhz_2v/article/details/1676620 [注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题,下面的内容是我讲座的摘要。] 在包括哥白尼、伽利略和牛顿在内的所有天文学家中,我最佩服的是地心说的提出者转载 2012-10-31 22:45:07 · 439 阅读 · 0 评论 -
数学之美系列之十三:信息指纹及其应用
http://blog.csdn.net/zhz_2v/article/details/1676618 任何一段信息文字,都可以对应一个不太长的随机数,作为区别它和其它信息的指纹(Fingerprint)。只要算法设计的好,任何两段信息的指纹都很难重复,就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中有着广泛的应用。 我们在图论和网络爬虫一文中提到,为了防止重复下载同一个网页,我们需转载 2012-10-31 22:44:29 · 344 阅读 · 0 评论 -
数学之美系列之十:有限状态机和地址识别
http://blog.csdn.net/zhz_2v/article/details/1676608 地址的识别和分析是本地搜索必不可少的技术,尽管有许多识别和分析地址的方法,最有效的是有限状态机。 一个有限状态机是一个特殊的有向图(参见有关图论的系列),它包括一些状态(节点)和连接这些状态的有向弧。下图是一个识别中国地址的有限状态机的简单的例子。 每一个有限状态机都有一个转载 2012-10-30 22:57:47 · 418 阅读 · 0 评论 -
数学之美系列之十一:Google阿卡47的制造者阿米特.辛格博士
http://blog.csdn.net/zhz_2v/article/details/1676611 枪迷或者看过尼古拉斯.凯奇(Nicolas Cage)主演的电影“战争之王”(Lord of War)的人也许还记得影片开头的一段话:(在所有轻武器中,)最有名的是阿卡 47( AK47)冲锋枪(也就是中国的五六式冲锋枪的原型),因为它从不卡壳、从不损坏、可在任何环境下使用、可靠性好、杀伤力转载 2012-10-30 22:58:15 · 340 阅读 · 0 评论 -
数学之美系列之九:如何确定网页和查询的相关性
http://blog.csdn.net/zhz_2v/article/details/1676604 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎了,比如为您所在的学校或院系建立一个小的搜索引擎。] 我们还是看上回的例子转载 2012-10-30 22:57:23 · 328 阅读 · 0 评论 -
数学之美系列之八:贾里尼克的故事和现代语言处理
http://blog.csdn.net/zhz_2v/article/details/1676586 读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他作为一个普普通通的人的故事。这些事要么是我亲身经历的,要么是他亲口对我讲的。转载 2012-10-30 22:54:40 · 376 阅读 · 0 评论 -
数学之美系列之七:信息论在信息处理中的应用
http://blog.csdn.net/zhz_2v/article/details/1676584 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。 先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器转载 2012-10-30 22:54:04 · 388 阅读 · 0 评论 -
数学之美系列之五:简单之美--布尔代数和搜索引擎的索引
[建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我们还会谈如何度量网页的相关性,和进行网页自动下载。] 世界上不可能有比二进制更简单的计数方法了,也不可能有比布尔运算更简单的运算了。尽管今天每个搜索引擎都转载 2012-10-30 22:53:07 · 333 阅读 · 0 评论 -
数学之美系列之十二:余弦定理和新闻的分类
http://blog.csdn.net/zhz_2v/article/details/1676613 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依靠余弦定理。 Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到一类中。计算机其实读不懂新闻,它只能快速计算。这就要求我们设计一个算法来算出任意两篇新闻的相似转载 2012-10-30 22:58:43 · 407 阅读 · 0 评论