搜索技术
文章平均质量分 67
amboyna
这个作者很懒,什么都没留下…
展开
-
数学之美 系列二 -- 谈谈中文分词
来源:http://googlechinablog.com/2006/04/blog-post_10.html发表者: 吴军, Google 研究员2006年4月10日 上午 08:10:00谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需要进行分词。例如把句子 “中国航天官员应邀到美转载 2006-12-18 17:22:00 · 495 阅读 · 0 评论 -
数学之美 系列九 -- 如何确定网页和查询的相关性
来源:http://googlechinablog.com/2006/06/blog-post_27.html2006年6月27日 上午 09:53:00发表者:吴军,Google 研究员[我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面,一个有一定编程基础的读者应该可以写一个简单的搜索引擎转载 2006-12-18 17:43:00 · 508 阅读 · 0 评论 -
数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)
来源:http://googlechinablog.com/2006/05/web-crawlers.html2006年5月15日 上午 07:15:00发表者: 吴军,Google 研究员[离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web转载 2006-12-18 17:37:00 · 495 阅读 · 0 评论 -
数学之美系列五 -- 简单之美:布尔代数和搜索引擎的索引
来源:http://googlechinablog.com/2006/05/blog-post_10.html2006年5月10日 上午 09:10:00发表者: 吴军,Google 研究员 [建立一个搜索引擎大致需要做这样几件事:自动下载尽可能多的网页;建立快速有效的索引;根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名) 时已经谈到了一些排序的问转载 2006-12-18 17:34:00 · 446 阅读 · 0 评论 -
数学之美 系列七 -- 信息论在信息处理中的应用
来源:http://googlechinablog.com/2006/05/blog-post_25.html2006年5月25日 上午 07:56:00发表者:吴军, Google 研究员 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想转载 2006-12-18 17:39:00 · 592 阅读 · 0 评论 -
数学之美系列四 -- 怎样度量信息?
来源: http://googlechinablog.com/2006/04/4.html2006年4月26日 上午 08:11:00发表者:吴军,Google 研究员前言: Google 一直以 “整合全球信息,让人人能获取,使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢?信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文转载 2006-12-18 17:29:00 · 620 阅读 · 0 评论 -
数学之美 系列一 -- 统计语言模型
转自:http://googlechinablog.com/2006/04/blog-post.html 发表者: 吴军, Google 研究员前言也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,转载 2006-12-18 17:19:00 · 530 阅读 · 0 评论 -
数学之美 系列八-- 贾里尼克的故事和现代语言处理
来源:http://googlechinablog.com/2006/06/blog-post_08.html2006年6月8日 上午 09:15:00发表者:Google 研究员,吴军读者也许注意到了,我们在前面的系列中多次提到了贾里尼克这个名字。事实上,现代语音识别和自然语言处理确实是和它的名字是紧密联系在一起的。我想在这回的系列里,介绍贾里尼克本人。在这里我不想列举他的贡献,而想讲一讲他转载 2006-12-18 17:41:00 · 580 阅读 · 0 评论 -
数学之美 系列三 -- 隐含马尔可夫模型在语言处理中的应用
来源:http://googlechinablog.com/2006/04/blog-post_17.html2006年4月17日 上午 08:01:00发表者:吴军,Google 研究员前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。自然语转载 2006-12-18 17:25:00 · 575 阅读 · 0 评论 -
Google 黑板報 - 數學之美系列
来源:http://googlechinablog.com/作者:吴军 google研究员 1. 统计语言模型 2. 谈谈中文分词 3. 隐含马尔可夫模型在语言处理中的应用 4. 怎样度量信息 5. 简单之美:布尔代数和搜索引擎的索引 6. 图论和网络爬虫 (Web Crawlers) 7. 信息论在信息处理中的应用 8. 贾里尼克的故事和现代语言处理 9. 如何确定网页和查询的相转载 2006-12-18 17:48:00 · 680 阅读 · 0 评论