关闭

【Nutch】Linux下Nutch分布式配置和使用

Linux下Nutch分布式配置和使用   目   录 介绍. 2 0 集群网络环境介绍. 2 1 /etc/hosts文件配置. 2 2 SSH无密码验证配置. 2 2.1配置所有节点之间SSH无密码验证. 2 3 JDK安装和Java环境变量配置. 3 3.1 安装 JDK 1.6 3 3.2 Java环境变量配置. 4 4 Hadoop集群配置....
阅读(5939) 评论(5)

【Nutch】Linux下单机配置Nutch

Linux下单机配置Nutch 1.环境介绍操作系统:Red hat linux 9 Nutch版本:nutch-0.9,下载:http://apache.etoak.com/lucene/nutch/JDK版本:JDK 1.6Apache Tomcat版本:apache-tomcat-6.0.18http://apache.etoak.com/tomcat/t...
阅读(5373) 评论(2)

【Nutch】nutch单机和分布式检索测试

(1)单机搜索测试,保证只是单机启动了Nutch搜索时必须配置:http.agent.name、searcher.dir  http.agent.name  nutch-1.0  HTTP User-Agent request header.  http.robots.agents  nutch-1.0,*  The agent strings well look f...
阅读(1948) 评论(0)

【Nutch】Linux下应用nutch-1.0Web前端实现HDFS数据检索

启动hadoop集群配置/usr/program/apache-tomcat-6.0.18/webapps/nutch-1.0/WEB-INF/classes下的配置文件hadoop-site.xml:        fs.default.name        hdfs://gc03vm12:9000        nutch-site.xml:  http.agent.n...
阅读(984) 评论(0)

【Nutch】Linux下应用nutch 1.0 Web前端实现单机检索

nutch的爬虫和搜索可以说是分离的两块,爬虫可以是M/R作业,但搜索不是M/R作业。搜索有两种方式:一是将爬虫数据(或者称索引数据)放在本地硬盘,进行搜索。二是直接搜索HDFS中的爬虫数据。这里介绍如何使用nutch-1.0的WEB前端检索本地爬虫数据:(1)Nutch的搜索可以独立于hadoop集群,只要将爬虫下来的数据copy到任何机器,在此机器上安装一个tomcat,并运行nutch自带的...
阅读(871) 评论(0)

【Nutch-1.0】Windows下解决nutch-1.0的Web前端搜索无结果

nutch-1.0命令行中搜索有结果,但是到web前端搜索,始终无结果,无论怎么配置,搜索关键字,一直提示以下令人郁闷的信息:第0-0项 (共有 0 项查询结果)很是郁闷,今天终于解决了。 (1)浏览器解压nutch-1.0.war后修改nutch-site.xml后必须重启tomcat。(每次修改Nutch-site.xml后请重启tomcat,再搜索)nutch-site.xm...
阅读(1742) 评论(3)
    个人资料
    • 访问:1321340次
    • 积分:13210
    • 等级:
    • 排名:第1059名
    • 原创:222篇
    • 转载:44篇
    • 译文:0篇
    • 评论:167条