搜索引擎
文章平均质量分 79
不期而至的else
这个作者很懒,什么都没留下…
展开
-
nutch 1.4在windows下安装配置
nutch 1.4在windows下的安装配置0、介绍Apache Nutch 是用java语言开发的开源网页爬虫程序。使用Nutch可以自动获取网页中的超链接,在检查坏链接,创建遍历过的网页副本以便查询等方面,将会减少大量的维护工作。也由此产生了Apache Solr。Solr是一个开源的全文搜索框架,通过Solr我们可以搜索Nutch遍历过的网页。而且Nutch和Solr的集成十分原创 2012-03-26 09:00:34 · 1281 阅读 · 1 评论 -
Heritrix 3.x快速运行你的第一个爬行程序
1、下载heritrix3.0或heritrix3.1,解压。运行cmd,进入到bin目录下(如笔者的目录:cd D:\heritrix-3.1.0\bin)。运行命令:heritrix -a admin:admin ,这里冒号前面admin是用户名,后面是密码,这样将会在另一个新建的窗口中运行heritrix程序。在浏览器地址栏输入https://localhost:8443,注意这原创 2012-04-12 15:02:00 · 4813 阅读 · 2 评论 -
Heritrix1.14.4抓取任务设置
笔者初学网络爬虫,经过搜索相关信息,发现heritrix 1.14.x的参考资料较多一点,而且直接通过WebUI定制的参数比3.x要多一些(3.x要直接配置craw-beans.cxml),适合初学者,所以决定先从heritrix 1.14.4学起了。1、运行Heritrix。(也可以导入到eclipse里面运行)1) 压缩包解压,以文本编辑方式打开 /heritrix/conf 下的原创 2012-04-15 21:51:40 · 1323 阅读 · 0 评论