Nutch1.2+Tomcat7.0+Cygwin网页爬虫工具搭建

1.搭建环境:
   电脑机型-联想Y450;
   处理器-Intel(R) Core(TM) Duo CPU T6500 @ 2.10GHZ 2.10 GHZ;
   操作系统-Win7旗舰版32位;
   安装内存(RAM)-2.00GB。
2.所用软件包:
   jdk-7-windows-i586
   apache-tomcat-7.0.27
   setup-x86(32-bit installation for cygwin)
   apache-nutch-1.2-bin.tar
   content.rdf.u8_
3.详细安装过程:
 01.JAVA安装
    a.运行jdk-7u5-windows-i586,比如安装到E:\JAVA;
    b.配置环境变量,通过“计算机-系统属性-高级系统设置-环境变量”进入环境变量修改环境,增加以下环境变量:
               环境变量名:CATALINA_HOME,值:E:\JAVA\JDK
               环境变量名:Path,值:%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin;
               环境变量名:CLASSPATH,值:.;%JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\bin;
    c.环境变量配置好后,点击“WIN+R”组合键,输入cmd进入dos环境,运行“javac -version”,若显示出java版本相关信息,则java安装成功;
 02.Tomcat安装
    a.双击运行相应安装包,选择安装路径,如E:\Tomcat7.0;
    b.配置环境变量,通过“计算机-系统属性-高级系统设置-环境变量”进入环境变量修改环境,增加以下环境变量:
       环境变量名:TOMCAT_HOME,值:E:\JAVA\Tomcat7.0;
       环境变量名:CATALINA_HOME,值:E:\JAVA\Tomcat7.0;
       CLASSPATH后增加:%TOMCAT_HOME%\bin;%CATALINA_HOME%\common\lib\servletapi.jar;%CATALINA_HOME%\common\lib\jsp-api.jar;
       PATH后增加:%CATALINA_HOME%\bin\
    c.启动E:\Tomcat7.0\bin\Tomcat7完成后,浏览器输入http://127.0.0.1:8080,如果显示相应Apache Tomcat相应页面说明Tomcat安装成功。
 03.Cygwin安装
    a.访问http://www.cygwin.com/,下载setup-x86(32-bit installation for cygwin);
    b.下载到本地后,点击setup-x86选择其中一种方式安装即可,假如安装在E:\Cygwin;
    c.配置环境变量,通过“计算机-系统属性-高级系统设置-环境变量”进入环境变量修改环境,增加以下环境变量:
      PATH后增加:E:\Cygwin\bin;
    d.检查Cygwin是否安装成功:打开E:\Cygwin\bin下的mintty,若能正常启动则表示安装成功。
 04.Nutch安装
    a.解压apache-nutch-1.2-bin.tar至E:\Nutch1.2下,确保bin的母目录即为Nutch1.2;
    b.启动Cygwin,运行"df"指令,检查各盘使用情况,通过cd命令改变路径到E:\Nutch1.2;
    c.运行"bin/nutch"指令,若出现"Usage:Nutch [-core] COMMAND"相关提示命令,则表示Nutch安装成功,Cheers!
4.网页抓取示例:
 01.Nutch1.2爬虫运行(以nutch.apache.org为例)
  a.打开E:\Nutch1.2\conf下的nutch-site.xml文件,在<configuration></configuration>中增加以下内容:
    <property>
   <name>http.agent.name</name>
   <value>My Nutch Spider</value>
  </property>
  <property>
   <name>http.agent.version</name>
   <value>1.0</value>
  </property>
  <property>
    <name>searcher.dir</name>
    <value>E:\Nutch1.2\crawled</value>
  </property>
 b.启动Cygwin,利用cd命令改变路径到E:\Nutch1.2;
 c.通过以下命令完成在Nutch1.2中增加urls文件,在urls中新建target.txt并增加url-http://nutch.apache.org/:
   mkdir -p urls
   cd urls
   touch target.txt
   echo http://nutch.apache.org/ >> target.txt
 d.打开E:\Nutch1.2\conf下的regex-urlfilter.txt文件,将"#accept anything else"处的"+."替换成:
      +^http://([a-z0-9]*\.)*nutch.apache.org/
    Tips:去掉nutch.apache.org/也可以,这样表示http的所有网站都爬行;
 e.Cygwin中输入命令运行爬虫:
    bin/nutch crawl urls/target.txt -dir crawled -depth 3 -topN 5  >&logs/target.log
   若Cygwin显示"crawl finished:target",则表示抓取网页完成;
 f.如果运行出现"Exception in thread "main" java.io.IOException: Job failed! ",则可通过在Cygwin中输入"export LANG="zh_CN.GBK""即可解决;
 g.抓取网页完成后,可通过 bin/nutch org.apache.nutch.searcher.NutchBean nutch进行检查是否抓取成功,如果一直显示抓取为0,则需要修 E:\Nutch1.2\conf下的nutch-site.xml的property属性。
02.Tomcat7.0展示
 a.将nutch-1.2.war拷贝到E:\Tomcat7.0\webapps\下,重启相应Tomcat,这一步可以解压相应war文件;
 b.将E:\Nutch1.2\conf下的nutch-site.xml拷贝至E:\Tomcat7.0\webapps\nutch-1.2\WEB-INF\classes下覆盖相应nutch-site.xml文件;
 c.重启Tomcat即可,在Nutch页面输入框输入相应关键词,即可查询相关爬虫结果;
 d.解决Tomcat的编码问题,打开E:\Tomcat7.0\conf\server.xml,找到"connection Timeout="20000" redirectPort="8443"",在其后增加:URIEncoding="UTF-8" useBodyEncodingForURI="true"
 
至此,Nutch1.2+Tomcat7.0网页爬虫工具搭建就好啦!
5.参考网址:
 01.Nutch wiki:http://wiki.apache.org/nutch/NutchTutorial
 02.http://wenku.baidu.com/view/a497821b6bd97f192279e99a.html
 
   
     

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值