搜索引擎之技术与算法_pengpengfly的博客-CSDN博客

搜索引擎之技术与算法

关注

关注数：文章数：19 文章阅读量：11347 文章收藏量：1

作者: pengpengfly

批评最易；辩护较难；找出解决方案最难

展开

专栏收录文章

数学之美系列（4）之怎样度量信息

数学之美系列 4 -- 怎样度量信息?2006年4月26日上午 08:11:00uT("time114601014752665451");发表者：吴军，Google 研究员前言: Google 一直以 “整合全球信息，让人人能获取，使人人能受益” 为使命。那么究竟每一条信息应该怎样度量呢？信息是个很抽象的概念。我们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少

转载 2008-09-23 21:06:00 · 490 阅读 · 0 评论
robots.txt

什么是robots.txt？　　robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。　　当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。　　

转载 2009-01-22 15:43:00 · 533 阅读 · 0 评论
从Larbin看互联网爬虫设计(转载)

来源: http://blog.chinaunix.net/u1/34978/showart_422243.html从Larbin看互联网爬虫设计于敦德2005.12.16转载请注明出处互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景，尤其是类似RSS的以XML为基础的结构化的数据越来越多，内容的组织方式越来越灵活，检索组织并呈现会有着越来越广

转载 2008-10-06 13:56:00 · 866 阅读 · 0 评论
数学之美（系列十九）之马尔可夫链的扩展贝叶斯网络 (Bayesian Networks)

数学之美系列十九－马尔可夫链的扩展贝叶斯网络 (Bayesian Networks)2007年1月28日下午 09:53:00uT("time116999293254246877");发表者：Google 研究员，吴军我们在前面的系列中多次提到马尔可夫链 (MarkovChain)，它描述了一种状态序列，其每个状态值取决于前面有限个状态。这种模型，对很多实际问题

转载 2008-09-27 09:48:00 · 586 阅读 · 0 评论
数学之美（系列十六（下））之不要把所有的鸡蛋放在一个篮子里　最大熵模型

数学之美系列十六（下）－不要把所有的鸡蛋放在一个篮子里　最大熵模型2006年11月16日上午 06:50:00uT("time116362474398958433");发表者：Google 研究员，吴军我们上次谈到用最大熵模型可以将各种信息综合在一起。我们留下一个问题没有回答，就是如何构造最大熵模型。我们已经所有的最大熵模型都是指数函数的形式，现在只需要确定指数函

转载 2008-09-27 09:45:00 · 576 阅读 · 0 评论
数学之美（系列 12）之余弦定理和新闻的分类

数学之美系列 12 - 余弦定理和新闻的分类2006年7月20日上午 10:12:00uT("time115337391327964752");发表者：吴军，Google 研究员余弦定理和新闻的分类似乎是两件八杆子打不着的事，但是它们确有紧密的联系。具体说，新闻的分类很大程度上依靠余弦定理。Google 的新闻是自动分类和整理的。所谓新闻的分类无非是要把相似的新闻放到

转载 2008-09-25 21:41:00 · 494 阅读 · 0 评论
数学之美（系列十一）之 Google 阿卡 47 的制造者阿米特.辛格博士

数学之美系列十一 - Google 阿卡 47 的制造者阿米特.辛格博士2006年7月10日上午 09:52:00uT("time115244161804028598");发表者：Google 研究员，吴军枪迷或者看过尼古拉斯.凯奇（Nicolas Cage)主演的电影“战争之王”（Lord ofWar)的人也许还记得影片开头的一段话：（在所有轻武器中，）最有名的是阿

转载 2008-09-25 21:38:00 · 534 阅读 · 0 评论
数学之美（系列二十一）之布隆过滤器（Bloom Filter）

数学之美系列二十一－布隆过滤器（Bloom Filter）2007年7月3日上午 09:35:00uT("time4444440318463911176");发表者：Google（谷歌）研究员吴军在日常生活中，包括在设计计算机软件时，我们经常要判断一个元素是否在一个集合中。比如在字处理软件中，需要检查一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在

转载 2008-09-27 09:51:00 · 897 阅读 · 0 评论
数学之美（系列十八）之矩阵运算和文本处理中的分类问题

数学之美系列十八－矩阵运算和文本处理中的分类问题2007年1月1日下午 03:10:00uT("time116763611149553424");发表者：Google 研究员，吴军我在大学学习线性代数时，实在想不出它除了告诉我们如何解线性方程外，还能有什么别的用途。关于矩阵的许多概念，比如特征值等等，更是脱离日常生活。后来在数值分析中又学了很多矩阵的近似算法，还是

转载 2008-09-27 09:47:00 · 694 阅读 · 0 评论
数学之美（系列七）之信息论在信息处理中的应用

数学之美系列七 -- 信息论在信息处理中的应用2006年5月25日上午 07:56:00uT("time114822338683782989");发表者：吴军, Google 研究员我们已经介绍了信息熵，它是信息论的基础，我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时，没有讲如何定量地衡量一个语言模型的好坏，当然，

转载 2008-09-25 21:33:00 · 606 阅读 · 0 评论
数学之美（系列九）之如何确定网页和查询的相关性

数学之美系列九 -- 如何确定网页和查询的相关性2006年6月27日上午 09:53:00uT("time115137628966847870");发表者：吴军，Google 研究员 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量(Page Rank)。我们今天谈谈如何确定一个网页和某个查询的相关性。了解了这四个方面，一个有一定编程基础的读者应该可以

转载 2008-09-25 21:35:00 · 477 阅读 · 0 评论
数学之美（系列十六（上））之不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型

数学之美系列十六（上）不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型2006年10月8日上午 07:27:00uT("time115890519154290698");发表者：Google 研究员，吴军 [我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里，这样可以降低风险。在信息处理中，这个原理同样适用。在数学上，这个原理称为最大熵原理(the maximum

转载 2008-09-27 09:42:00 · 537 阅读 · 0 评论
数学之美（系列十三）之信息指纹及其应用

数学之美系列十三信息指纹及其应用2006年8月3日上午 11:17:00uT("time115457675609630123");发表者：吴军，Google 研究员任何一段信息文字，都可以对应一个不太长的随机数，作为区别它和其它信息的指纹（Fingerprint)。只要算法设计的好，任何两段信息的指纹都很难重复，就如同人类的指纹一样。信息指纹在加密、信息压缩和处理中

转载 2008-09-25 21:41:00 · 481 阅读 · 0 评论
数学之美（系列十）之有限状态机和地址识别

数学之美系列十有限状态机和地址识别2006年7月5日上午 09:09:00uT("time115206306165358127");发表者：吴军，Google 研究员地址的识别和分析是本地搜索必不可少的技术，尽管有许多识别和分析地址的方法，最有效的是有限状态机。一个有限状态机是一个特殊的有向图（参见有关图论的系列），它包括一些状态（节点）和连接这些状态的有向弧。下图

转载 2008-09-25 21:36:00 · 641 阅读 · 0 评论
数学之美系列（六）之图论和网络爬虫 (Web Crawlers)

数学之美系列六 -- 图论和网络爬虫 (Web Crawlers)2006年5月15日上午 07:15:00uT("time114733040963327560");发表者: 吴军，Google 研究员 [离散数学是当代数学的一个重要分支，也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算，我们已经介绍过了。这里我们介绍图论和互

转载 2008-09-23 22:25:00 · 584 阅读 · 0 评论
数学之美（系列二）之谈谈中文分词

数学之美系列二 -- 谈谈中文分词2006年4月10日上午 08:10:00uT("time114462952509335533");发表者: 吴军， Google 研究员谈谈中文分词----- 统计语言模型在中文处理中的一个应用上回我们谈到利用统计语言模型进行语言处理，由于模型是建立在词的基础上的，对于中日韩等语言，首先需要进行分词。例如把句子 “中国航天官员应邀到

转载 2008-09-23 13:38:00 · 593 阅读 · 0 评论
数学之美（系列一）之统计语言模型

数学之美系列一 -- 统计语言模型2006年4月3日上午 08:15:00uT("time114399197227125143");从本周开始，我们将定期刊登 Google 科学家吴军写的《数学之美》系列文章，介绍数学在信息检索和自然语言处理中的主导作用和奇妙应用。发表者: 吴军, Google 研究员前言也许大家不相信，数学是解决信息检索和自然语言处理的最好工具

转载 2008-09-23 13:34:00 · 565 阅读 · 0 评论
数学之美系列五之简单之美：布尔代数和搜索引擎的索引

数学之美系列五 -- 简单之美：布尔代数和搜索引擎的索引2006年5月10日上午 09:10:00uT("time114722733511630150");发表者: 吴军，Google 研究员 [建立一个搜索引擎大致需要做这样几件事：自动下载尽可能多的网页；建立快速有效的索引；根据相关性对网页进行公平准确的排序。我们在介绍 Google Page Rank (网页排名)

转载 2008-09-23 21:14:00 · 537 阅读 · 0 评论
Unicode相关的编码问题

以下转载于Internet 一、Unicode由来Unicode(Universal Multiple-Octet Coded Character Set):目前最流行和最有前途的字符编码规范,因为它解决了不同语言编码的冲突。最初的字符编码ascii(8bit,最高位为0)只能表示128个字符,表示英文、数字和一些符号是没问题。但是世界不止一种语言,即使用上了最高为1的扩展asci

原创 2008-12-23 14:10:00 · 656 阅读 · 0 评论

搜索引擎之 技术与算法

作者: pengpengfly

数学之美系列（4） 之 怎样度量信息

robots.txt

从Larbin看互联网爬虫设计(转载)

数学之美（系列十九） 之 马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)

数学之美（系列十六 （下）） 之 不要把所有的鸡蛋放在一个篮子里 最大熵模型

数学之美（系列 12） 之 余弦定理和新闻的分类

数学之美（系列十一） 之 Google 阿卡 47 的制造者阿米特.辛格博士

数学之美（系列二十一） 之 布隆过滤器（Bloom Filter）

数学之美（系列十八） 之 矩阵运算和文本处理中的分类问题

数学之美（系列七） 之 信息论在信息处理中的应用

数学之美（系列九） 之 如何确定网页和查询的相关性

数学之美（系列十六（上）） 之 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型

数学之美（系列十三） 之 信息指纹及其应用

数学之美（系列十） 之 有限状态机和地址识别

数学之美系列（六） 之 图论和网络爬虫 (Web Crawlers)

数学之美（系列二） 之 谈谈中文分词

数学之美（系列一） 之 统计语言模型

数学之美系列五 之 简单之美：布尔代数和搜索引擎的索引

Unicode相关的编码问题

搜索引擎之技术与算法

数学之美系列（4）之怎样度量信息

数学之美（系列十九）之马尔可夫链的扩展贝叶斯网络 (Bayesian Networks)

数学之美（系列十六（下））之不要把所有的鸡蛋放在一个篮子里　最大熵模型

数学之美（系列 12）之余弦定理和新闻的分类

数学之美（系列十一）之 Google 阿卡 47 的制造者阿米特.辛格博士

数学之美（系列二十一）之布隆过滤器（Bloom Filter）

数学之美（系列十八）之矩阵运算和文本处理中的分类问题

数学之美（系列七）之信息论在信息处理中的应用

数学之美（系列九）之如何确定网页和查询的相关性

数学之美（系列十六（上））之不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型

数学之美（系列十三）之信息指纹及其应用

数学之美（系列十）之有限状态机和地址识别

数学之美系列（六）之图论和网络爬虫 (Web Crawlers)

数学之美（系列二）之谈谈中文分词

数学之美（系列一）之统计语言模型

数学之美系列五之简单之美：布尔代数和搜索引擎的索引