windows上搭建自己的搜索引擎nutch

原创 2007年09月27日 23:05:00

nutch windows install guider

--By Liming Liu

 

1 Install Cygwin. 1

2 Install JDK.. 4

3 Install Tomcat 5

4 Pre-Install nutch. 5

5 Configure and run nutch. 5

6 Begin search. 7

7 Referece. 7

 

1 Install Cygwin

Download and install the latest version, must select GCC while selecting packages.
 
   

2 Install JDK

Download jdk-1_5_0_06-windows-i586-p.exe and install(acquiescently, C:/Program Files/Java/jdk1.5.0_06 ).

 

Set environmental variable: NUTCH_JAVA_HOME: C:/Program Files/Java/jdk1.5.0_06

JAVA_HOME: C:/Program Files/Java/jdk1.5.0_06

 

3 Install Tomcat

Download apache-tomcat-6.0.13.exe and install(acquiescently, C:/Program Files/Apache Software Foundation/Tomcat 6.0).Remember the port, account and password.

 

4 Pre-Install nutch

Download nutch-0.9.tar.gz and unzip to nutch-0.9(such as C:/dev/search/netch/nutch-0.9).

 

Start Tomcat service, open http://localhost:8080/manager/html

 

Move to “WAR file to deploy”, upload file: C:/dev/search/netch/nutch-0.9/nutch-0.9.war.

 

Close Tomcat service, change directory name “ROOT” in “C:/Program Files/Apache Software Foundation/Tomcat 6.0/webapps” to “ ROOT-backup”, change directory name “nutch-0.9” in “C:/Program Files/Apache Software Foundation/Tomcat 6.0/webapps” to “ ROOT”.( OR do nothing)

 

5 Configure and run nutch

Create directory “urls” in “C:/dev/search/netch/nutch-0.9”.

Create a file “testurlfile” in directory “urls”.

Add line: “http://www.bokee.com “ to  file “testurlfile”.

Find file “C:/dev/search/netch/nutch-0.9/conf/ crawl-urlfilter.txt”, replace “MY.DOMAIN.NAME” with “bokee.com”

 

 

Find file “C:/dev/search/netch/nutch-0.9/conf/ nutch-site.xml”, edit it to this:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

 

<!-- Put site-specific property overrides in this file. -->

 

<configuration>

 

<property>

  <name>http.agent.name</name>

  <value>nutch</value>

  <description>HTTP 'User-Agent' request header. MUST NOT be empty -

  please set this to a single word uniquely related to your organization.

 

  NOTE: You should also check other related properties:

 

       http.robots.agents

       http.agent.description

       http.agent.url

       http.agent.email

       http.agent.version

 

  and set their values appropriately.

 

  </description>

</property>

 

<property>

  <name>http.agent.description</name>

  <value>liming agent.description</value>

  <description>Further description of our bot- this text is used in

  the User-Agent header.  It appears in parenthesis after the agent name.

  </description>

</property>

 

<property>

  <name>http.agent.url</name>

  <value></value>

  <description>A URL to advertise in the User-Agent header.  This will

   appear in parenthesis after the agent name. Custom dictates that this

   should be a URL of a page explaining the purpose and behavior of this

   crawler.

  </description>

</property>

 

<property>

  <name>http.agent.email</name>

  <value>agent.email</value>

  <description>An email address to advertise in the HTTP 'From' request

header and User-Agent header. A good practice is to mangle this

   address (e.g. 'info at example dot com') to avoid spamming.

  </description>

</property>

</configuration>

 

 

Find file “C:/Program Files/Apache Software Foundation/Tomcat 6.0/webapps/ROOT/WEB-INF/classes/”, edit it to this:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

  <name>searcher.dir</name>

  <value>C:/dev/search/netch/nutch-0.9/crawl.demo</value>

</property>

</configuration>

 

Find file C:/Program Files/Apache Software Foundation/Tomcat 6.0/conf/server.xml.Edit the item <Connector port="8080" …/>” to this:

<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100"   debug="0" connectionTimeout="20000"  disableUploadTimeout="true" URIEncoding="UTF-8"/>

 

Start tomcat service.

 

Start cygwin, cd to “C:/dev/search/netch/nutch-0.9”, run: bin/nutch crawl urls -dir crawl.demo -depth 2 -topN 50  

 

6 Begin search

Open http://localhost:8080 with internet explorer, you will see a real search engine.

(Or http://localhost:8080/nutch)

                  

7 Referece

http://www.javaeye.com/topic/81627  Nutch_0.8实践 (1)  X.D.Hua

http://www.ideagrace.com/club/simple/index.php?t312.html Nutch winxp Kevin

http://blog.csdn.net/pwlazy/archive/2006/08/23/1109868.aspx windowsnutch0.8初探 pwlazy

 

 

Liming Liu:

刘黎明 北京科技大学计算机硕士 liuliming2008@126.com

 

利用nutch、hbase和solr搭建搜索引擎

我感觉搜索引擎是互联网界最伟大的技术,它让我们在网上查询变得异常方便。         公司近期需要搭建一个站内搜索引擎,用来方便客户查询数据。借此机会学习下搜索引擎的搭建和原理。 开源界最完善的开源...
  • dhx20022889
  • dhx20022889
  • 2015年07月09日 16:24
  • 1343

nutch从搜索引擎到网络爬虫

人物介绍 姓名:DougCutting 个人名望:开发出开源全文检索引擎工具包Lucene。 个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构 H...
  • baolibin528
  • baolibin528
  • 2014年09月19日 19:01
  • 2029

Nutch和Lucene的区别

想做一个搜索引擎,最近浏览了许多社区,发现Lucene和Nutch用的很多,而这两个我总感觉难以区分概念, 于是在查了些资料。下面是Lucene和Nutch创始人Doug Cutting 的访谈摘录:...
  • qq_20545159
  • qq_20545159
  • 2015年12月30日 12:41
  • 473

自己动手搭建搜索工具

http://www.cnblogs.com/baiboy/p/solr.html 阅读目录 1 Apache Solr搜索服务器简介2 安装下载最新的...
  • zdy0_2004
  • zdy0_2004
  • 2016年04月12日 18:04
  • 696

Nutch学习之Win7环境下在eclipse中搭建Nutch+solr+tomcat

最近,因为工作的需要,要获取yi
  • yongyu211
  • yongyu211
  • 2014年07月26日 11:37
  • 3881

自己动手实现主题搜索引擎

1.前言:   软件设计要写大作业了,好慌啊,写什么好呢,室友居然把Everything实验了,那我也写一个与搜索有关的玩玩吧。突然想到大一时候自学过利用whoosh和solr写过简单的搜索引擎,那么...
  • wbcg111
  • wbcg111
  • 2016年05月30日 21:13
  • 989

教你一步步搭建和运行完整的开源搜索引擎

大数据时代,搜索无处不在,利用开源软件快速搭建搜索引擎,经过几天的尝试,终于成功,整个过程分享出来免得大家再浪费不必要的时间。 请尊重原创,转载请注明以及原始链接地址 一、需要的软...
  • QFire
  • QFire
  • 2017年12月04日 21:46
  • 235

搭建小型搜索引擎---原理及工具

简单记录一下搜索引擎的基本原理和搭建步骤。 搜索引擎基本框架 搭建搜索引擎主要分为三个步骤:Web信息的搜集;信息的索引与检索;Web服务提供接口。 1.信息...
  • qiuyang0607
  • qiuyang0607
  • 2012年06月12日 20:59
  • 4370

Windows下配置nutch

Windows下配置nutch轻松拥有自己的小引擎(表示弄了一上午了) 因为课程需要所以用到nutch,但是看了网上的攻略都不适用,各种bug,所以自己总结了一下经验 1、Nutch简介(建议看一下N...
  • qq_29721419
  • qq_29721419
  • 2016年11月14日 13:50
  • 4480

基于Nutch和Hadoop的简易搜索引擎

最近和寝室的同学一起搭建了Hadoop的集群,实现了一个简易的本地搜索引擎,并且将其开源到了github上:https://github.com/ifuding/search-1047,接下来的几篇博...
  • dingzuoer
  • dingzuoer
  • 2015年04月22日 15:35
  • 1249
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:windows上搭建自己的搜索引擎nutch
举报原因:
原因补充:

(最多只允许输入30个字)