爬虫
文章平均质量分 85
xuguokun1986
这个作者很懒,什么都没留下…
展开
-
nutch工作原理
Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者之间的耦合度很低。Crawler和Searcher两部分尽量分开的目的主要是为了使两部分可以分布式配置在硬件平台上,例如将Crawler和Se转载 2016-03-30 10:59:26 · 398 阅读 · 0 评论 -
nutch-2.1、mysql整合
这次主要介绍下nutch2.1和mysql和elasticsearch的整合,是在单机上运行,并不是分布式部署。1、下载nutch2.1 nutch下载地址:http://labs.mop.com/apache-mirror/nutch/2.1/apache-nutch-2.1-src.tar.gz 2、配置nutch使用mysql作为数据存储,修改nu原创 2016-03-31 19:33:37 · 1063 阅读 · 0 评论 -
搜索引擎爬虫工作原理-大揭秘
搜索引擎的处理对象是互联网网页,日前网页数量以百亿计,所以搜索引擎首先面临的问题就是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。网络爬虫即起此作用,它是搜索引擎系统中很关键也根基础的构件。这里主要介绍与网络爬虫相关的技术,尽管爬虫技术经过几十年的发展,从整体框架上已相对成熟,但随着联网的不断发展,也面临着一些有挑战性的新问题。下转载 2016-04-11 09:11:01 · 518 阅读 · 0 评论