搜索算法
happylife1527
这个作者很懒,什么都没留下…
展开
-
浅析PageRank算法
http://news.cnblogs.com/n/148690/ 作者:张洋 很早就对 Google 的 PageRank 算法很感兴趣,但一直没有深究,只有个轮廓性的概念。前几天趁团队 outing 的机会,在动车上看了一些相关的资料(PS:在动车上看看书真是一种享受),趁热打铁,将所看的东西整理成此文。 本文首先会讨论搜索引擎的核心难题,同时讨论早期搜索引擎转载 2012-09-08 21:07:36 · 948 阅读 · 0 评论 -
PageRank 入门
http://www.cnblogs.com/wentingtu/archive/2011/12/16/2289891.html转载 2012-10-27 10:33:48 · 437 阅读 · 0 评论 -
数学之美系列完整版(最新全集列表)
数学之美系列完整版(最新全集列表)作者:吴军, Google 研究员 来源:Google黑板报数学之美 一 统计语言模型数学之美 二 谈谈中文分词数学之美 三 隐含马尔可夫模型在语言处理中的应用数学之美 四 怎样度量信息?数学之美 五 简单之美:布尔代数和搜索引擎的索引数学之美 六 图论和网络爬虫 (Web Crawlers)数学之美 七 信息论在信息处理中转载 2012-10-23 09:15:16 · 3676 阅读 · 0 评论 -
数学之美 与 浪潮之巅
转载自吴军博士的网站:http://jun.wu.googlepages.com/两个非常有名系列文章:“数学之美”与“浪潮之巅”。不懂计算机的人也可以从中学到不少。Beauty of Mathematics数学之美 (Written in Chinese) I am writing a seria转载 2012-10-23 09:11:40 · 691 阅读 · 0 评论 -
pagerank比较透彻的讲解文章
http://www.cnblogs.com/sofiahjm/articles/2194486.html 一个正常的搜索引擎,其核心功能自然是网页搜索。那搜索结果应该怎样排序才最好呢?实际上,在谷歌主导互联网搜索之前,人们为此伤透脑筋。当时人们认为,通过判断能够得知哪个网页更重要,对搜索引擎的发展十分有帮助——很显然,搜索引擎应该把重要的网页放到搜索结果中比较靠前的地方。转载 2012-10-31 22:50:28 · 636 阅读 · 0 评论 -
Selenimu做爬虫
http://www.cnblogs.com/oscarxie/archive/2009/12/25/1631981.htmlhttp://www.cnblogs.com/oscarxie/archive/2010/04/02/1702464.html前面有介绍过Selenium作为开源的自动化测试框架,其实Selenium还可以作为爬虫工具。举个例子,我想爬取中国概念股的一些转载 2012-10-31 22:49:45 · 1100 阅读 · 0 评论 -
从Larbin看互联网爬虫设计
互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入口。一个高效,灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。要设计一个爬虫,首先需要考虑的效率。对于网络转载 2012-10-23 08:53:55 · 365 阅读 · 0 评论 -
Nutch搜索引擎分析
21世纪是信息的时代,也是网络的时代。不断通畅与进步的互联网在给人们带来浩如烟海的网络信息的同时,也容易使人在查询自己所需的有用的相关信息时陷入迷茫。搜索引擎正是为了满足人们网络信息搜索应运而生的网络工具,它是互联网信息查询的导航针。现在的商业搜索引擎不少,但都是保密的,不便研究。而Nutch 是一个开源Java 实现的搜索引擎,它提供了我们运行自己的搜索引擎所需的全部工具。 Nut转载 2012-10-23 08:52:55 · 655 阅读 · 0 评论 -
搜索引擎中网络爬虫的设计分析
多次被人问到这个问题,看来需要做一点说明,这里简单介绍一下搜索引擎的机器爬虫的制作和一些基本要注意的事项。说的简单易懂一些,网络爬虫跟你使用的〖离线阅读〗工具差不多。说离线,其实还是要跟网络联结,否则怎么抓东西下来?那么不同的地方在哪里?1】 网络爬虫高度可配置性。2】 网络爬虫可以解析抓到的网页里的链接3】 网络爬虫有简单的存储配置4】 网络爬虫拥有智能的根据网页更新分析转载 2012-10-23 08:49:32 · 502 阅读 · 0 评论 -
推荐本书
http://blog.csdn.net/zhz_2v/article/details/1702533对于搜索技术的学习,资料的确不多,这是前阵子看的一本书> Jeff Heaton写的,国内有中文版的,电子工业出的,叫网络机器人Java编程指南>>。下载地址:中文版 英文版书中的资源可以在作者的blog里面下载,或者留个邮件,可以发给你,特别是他写的一个bot的jar包转载 2012-10-23 08:45:54 · 371 阅读 · 0 评论 -
中文分词的简要实现
http://www.cnblogs.com/lcl/archive/2006/01/27/323742.html中文分词的简要实现前段时间在摆弄Lucene(Lucene is a high performance, scalable Information Retrieval (IR) library. It lets you add indexing and searchin转载 2012-10-22 08:45:01 · 1090 阅读 · 0 评论