数学之美
文章平均质量分 81
Kinglliam
这个作者很懒,什么都没留下…
展开
-
数学之美 系列四 -- 怎样度量信息?
2006年4月26日 上午 08:11:00uT("time114601014752665451");发表者:吴军,Google 研究员前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信转载 2006-05-04 15:21:00 · 1095 阅读 · 0 评论 -
数学之美 系列一 -- 统计语言模型
2006年4月3日 上午 08:15:00uT("time114399197227125143");从本周开始,我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章,介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。发表者: 吴军, Google 研究员 前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并转载 2006-05-04 15:14:00 · 921 阅读 · 0 评论 -
数学之美 系列二 -- 谈谈中文分词
2006年4月10日 上午 08:10:00uT("time114462952509335533");发表者: 吴军, Google 研究员 谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美国与太空总署官员开会。” 分成一串转载 2006-05-04 15:18:00 · 850 阅读 · 0 评论 -
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用
2006年4月17日 上午 08:01:00uT("time114523190259377514");发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然转载 2006-05-04 15:20:00 · 987 阅读 · 0 评论 -
数学之美 系列五 -- 简单之美:布尔代数和搜索引擎的索引
2006年5月10日 上午 09:10:00uT("time114722733511630150");发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问题,这里我们谈谈索引问题,以后我转载 2006-05-10 22:19:00 · 1272 阅读 · 0 评论 -
数学之美 系列六 -- 图论和网络爬虫 (Web Crawlers)
2006年5月15日 上午 07:15:00uT("time114733040963327560");发表者: 吴军,Google 研究员 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系转载 2006-05-15 12:04:00 · 1455 阅读 · 0 评论 -
数学之美 系列七 -- 信息论在信息处理中的应用
2006年5月25日 上午 07:56:00uT("time114822338683782989");发表者:吴军, Google 研究员 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和转载 2006-05-26 10:54:00 · 1662 阅读 · 0 评论