信息检索大作业:在Windows XP上搭建 nutch-0.9 搜索引擎环境

1 篇文章 0 订阅
1 篇文章 0 订阅

零、软件资源

1 cygwin

2 jdk1.6.0_10

3 nutch-0.9

4 Tomcat

自行寻找下载

http://download.csdn.net/detail/handyhuang/4195140

一、 实验目的

1 基本环境建立:在windows XP搭建一个独立完整的nutch的测试平台,此平台搭建完毕可以直接拷贝到任意windows XP电脑上使用,免去重复搭建的问题。

2 抓取行业信息:抓取DVBCN 网站行业内容,以此为数据库,测试nutch搜索引擎。

3 搜索测试:通过tomcat搭建web平台,实现使用nutch搜素引擎进行垂直搜索。

4 掌握nutch的搭建,使用。

二、 实验过程

目标1:基本环境建立

完成目标1,首先要解决环境变量设置问题,主要技术思路采用bat批处理进行CMD终端的临时环境变量设置,CMD终端关闭后系统的环境变量自动恢复,不影响电脑。主要步骤如下:

第一步 在windows的任意盘根目录下(比如D盘)创建nutch-10R0585目录,作为nutch平台的根目录,然后将cygwin,jdk1.6.0_10,nutch-0.9,Tomcat都安装或者解压到nutch-10R0585目录。nutch的平台所需软件就已经齐全了。

为了减小cygwin体积,我进行了剪裁,只保留bin下的少数exe文件,只要能保证nutchshell脚本可以正确执行即可。

 

 

第二步设置nutch运行环境的临时环境变量,创建NUTCH.bat批处理脚本,内容如下:


主要作用就是当用户用鼠标双击NUTCH.bat后,进入CMD终端,并且调用env_set.bat批处理文件,env_set.bat的主要作用是设置临时环境变量,内容如下:


第三步 环境验证,主要通过以下几个命令进行验证,截图如下:

Java版本号应该与nutch-10R0585下的jdk里的java版本号一致。以上都没问题,那么可以完成第二个目标。

目标2:抓取行业信息

第一步 在\nutch-10R0585\nutch-0.9\bin目录下建立urls目录,在\nutch-10R0585\nutch-0.9\bin\urls目录下创建nutch.txt文本文件, 内容如下:

可能有些版本原因,输入一个网址会有问题,因此可以随便写第二个网址在文件里

第二步打开\nutch-10R0585\nutch-0.9\conf\crawl-urlfilter.txt文件 找到^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 这一行 注销此行,输入要抓取的网站domain:


并保存。

第三步 打开\nutch-10R0585\nutch-0.9\conf \conf\nutch-site.xml文件,将

文本内容覆盖原有的

<configuration>

 

</configuration>

并且保存

       第四步 聚焦到我们在基本环境建立时打开的终端上面,此时我们应该在CMD终端的\nutch-10R0585\nutch-0.9\bin目录,如果不确定,

    cd %NUTCHHOME%/nutch-0.9/bin

    sh nutch crawl urls -dir DVBCN -depth 4-threads 5 -topN 500 > dvbcn.log

这里-dir表示存储的目录,-depth表示网址爬的深度,最后是指明日志文件


运行结束后,你可以打开日志文件查看爬虫运行的详细过程。同时在\nutch-10R0585\nutch-0.9\bin目录下生成了抓取网页的数据库,在DVBCN目录下。那么nutch要检索的内容目录就是D:\nutch-10R0585\nutch-0.9\bin\DVBCN。

至此我已经完成DVBCN行业网站的信息抓取目标,下面就是实现通过web方式使用nutch搜素引擎进行垂直搜索了。

目标3:搜索测试

第一步 将\nutch-10R0585\nutch-0.9\nutch-0.9目录的nutch-0.9.war拷贝到\nutch-10R0585\Tomcat\webapps目录下

 

第二步 打开\nutch-10R0585\Tomcat\conf\server.xml文件,将

       <Connector port="80"maxHttpHeaderSize="8192"

       maxThreads="150"minSpareThreads="25" maxSpareThreads="75"

       enableLookups="false"redirectPort="8443" acceptCount="100"

       connectionTimeout="20000"

       disableUploadTimeout="true"

       URIEncoding="UTF-8"useBodyEncodingForURI="true"/>

添加到文件,并保存。

 

第三步 cd %NUTCHHOME%/Tomcat/bin,通过startup.bat 启动 tomcat服务,也不可以通过shutdown.bat 关闭 tomcat服务。

   启动tomcat服务后,会在\nutch-10R0585\Tomcat\webapps生成nutch-0.9目录,打开\nutch-10R0585\Tomcat\webapps\nutch-0.9\WEB-INF\classes\nutch-site.xml

将原有

<configuration>

</configuration>

替换

保存

 

第四步 打开\nutch-10R0585\Tomcat\webapps\nutch-0.9\search.jsp

将 151行的<jsp:includepage="<%= language + "/include/header.html"%>"/>

修改:<jsp:include page='<%= language +"/include/header.html"%>'/>

避免发生web搜索出现HTTP  Status 500 -

 

第五步 打开浏览器,在地址栏输入http://127.0.0.1/nutch-0.9/,进行相关搜索测试

截图如下:

 

 


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值