Nutch 0.8笔记--Google式的搜索引擎实现

最新推荐文章于 2024-09-12 19:51:41 发布

maikforever

最新推荐文章于 2024-09-12 19:51:41 发布

阅读量1.4k

点赞数

文章标签：搜索引擎 lucene hadoop debian java 文档

作者：江南白衣

 Nutch是一个基于Lucene，类似Google的完整网络搜索引擎解决方案，基于Hadoop的分布式处理模型保证了系统的性能，类似Eclipse的插件机制保证了系统的可客户化，而且很容易集成到自己的应用之中。

Nutch 0.8 完全使用Hadoop重写了骨干代码，另有很多地方作了合理化修正，非常值得升级。

1.Nutch 0.8 的安装与运行

nutch 0.7.2的中文安装文档满街都是，nutch 0.8的安装文档见Tutorial (0.8)，要注意两点：

一是 crawl命令里的urls参数从指定文件变为了指定目录，即原来的urls 要改存到urls/foo 里。

二是 nutch-default.xml里http.agent.name属性默认为空，必须在nutch-site.xml中为该属性设值，否则会出错。

注意nutch 爬行时的信息用log4j输出在/logs 目录下了，默认不再直接输出到屏幕，除非你在配置文件里设fetcher.verbose为true。

Luke(http://www.getopt.org/luke)是一个必备的索引阅读工具。

另外，nutch需要在unix下奔跑，如果要装在windows上，大家可以先装个cygwin。(下载它的setup.exe 在线安装很快装完)。

最后，nutch 0.8的recawl 脚本也不同了。

2.Nutch You should know

2.1 一份文档

nutch的文档不多，而且多是安装文档，要深入nutch，就必须一字不漏的阅读：

Introduction to Nutch, Part 1 Crawling 和Introduction to Nutch, Part 2 Searching

然后就是看源码了，好在nutch的源码非常均匀，简短，没有花哨的技巧，很容易把事情看明白。

2.2 三个目录

首先理解nutch的三个数据目录：

1.crawdb,linkdb是web link目录，存放url 及url的互联关系，作为爬行与重新爬行的依据，页面默认30天过期。

2.segments是主目录，存放抓回来的网页。页面内容有bytes[]的raw content 和 parsed text的形式。nutch以广度优先的原则来爬行，因此每爬完一轮会生成一个segment目录。

3.index是lucene的索引目录，是indexs里所有index合并后的完整索引，注意索引文件只对页面内容进行索引，没有进行存储，因此查询时要去访问segments目录才能获得页面内容。

2.3 爬行过程

爬行过程在Introduction to Nutch, Part 1 Crawling 里已有详细说明，或许直接看Crawl类来理解爬行的过程。

这里有一幅更直观的图：

Nutch用入口地址，地址正则表达式，搜索深度三种形式来限制。

因为使用了Hadoop(下篇再讲），Nutch的代码都按照Hadoop的模式来编写以获得分布式的能力，因此要先了解一下Hadoop，明白它Mapper,Reducer, InputFormat, OutputFormat类的作用才能更好的阅读。

1.Fetcher类，在run()里多线程运行FetcherThread，并调用恰当的Protocol插件(支持http,ftp等协议)获取内容，调用恰当的Parser将内容(html,pdf,excel)分析为文本，然后把内容放到FetcherOutput类里，最后由FetcherOutputFormat类定义写盘到segments的过程。

2.Indexer类，使用hadoop遍历所有segments 目录，将parseData文件序列化成ParseData类，从中获得各种资料然后调用插件进行索引，最后仍然由ouputFormat类完成写入索引的工作。

注意，如果你仅想使用Nutch的爬虫，而不是其索引功能，可以仿照Indexer重写自己的实现，比如把segments内容直接搬进数据库。

3.Nutch 每条索引记录的字段

url：作为唯一标标识值，由BasicIndexingFilter类产生。

segment：由Indexer类产生。Nutch抓回来的页面内容放在segments目录，lucene只会索引，不会store原文内容，因此在查询时要以segment与url作为外键，由FetchedSegments类根据hitsDetail从segments目录获得content。

boost：优先级，由Indexer类调用插件计算产生。

title：显示标题，在BasicIndexingFilter插件中被索引和存储。

content：主要的被搜索项，在BasicIndexingFilter插件中被索引。

2.4 搜索过程

Nutch提供了一个Fascade的NutchBean类供我们使用，一段典型的代码如下

 
 
 
  
  
   
       NutchBean bean 
   
   =
   
    
   
   new
   
    NutchBean();
    Query query 
   
   =
   
    Query.parse(args[
   
   0
   
   ]);
    Hits hits 
   
   =
   
    bean.search(query, NUM_HITS,
   
   "
   
   title
   
   "
   
   ,
   
   true
   
   );

    
   
   for
   
    (
   
   int
   
    i 
   
   =
   
    
   
   0
   
   ; i 
   
   <
   
    hits.getLength(); i
   
   ++
   
   ) {
      Hit hit 
   
   =
   
    hits.getHit(i);
      HitDetails details 
   
   =
   
    bean.getDetails(hit);

      String title 
   
   =
   
    details.getValue(
   
   "
   
   title
   
   "
   
   );
      String url 
   
   =
   
    details.getValue(
   
   "
   
   url
   
   "
   
   );
      String summary 
   
   =
   
   bean.getSummary(details, query);
    }

这里NutchBean为我们做了几样事情：

一是按Title field来排序。

二是支持分布式查询，如果有配置servers，就会使用hadoop的IPC系统，调用所有server上的nutchBeans，最后规约出总的结果。

三是每个站点像Google一样只显示分数最高的一页，如果用户还想看同站的其他结果，就需要进一步调用API访问。

四是生成Summary，从segments目录按segments和url 获得content, 并按一定算法抽取出像Google一样的包含关键字的文档片断。

3. 修改源码或编写插件

Nutch的源码很容易修改和重新编译，注意新编译的class要压回nutch-0.8.job（实际是一个jar)才能生效。

Nutch的插件机制及度类似Eclipse，详看http://wiki.apache.org/nutch/WritingPluginExample，只要实现某个插件接口，然后在plugins.xml里定义class,扩展点和依赖的jar，如

最后是八卦，Dedian同志翻译的Doug Cutting 访谈录 -- 关于搜索引擎的开发。
最最后，感谢创造 "C++ 必知必会" 这个短语的译者:)

转自 http://www.tzsy.cn/blog/146/viewspace-43255.html

http://wiki.apache.org/nutch/NutchTutorial

配置环境：Debian 4 (kernel 2.4)

配置软件：
1, Java jdk-1.5
1,1 下载安装
apt-get install sun-java5-jdk

1,2 修改环境变量
vi /etc/profile
在末尾加上
QUOTE:
JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun-1.5.0.10
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

export PATH
export JAVA_HOME
export CLASSPATH

1,3 测试
java -version

2, tomcat-5.5
2,1 下载
from:http://tomcat.apache.org/
wgethttp://mirror.olnevhost.net/pub/... omcat-5.5.23.tar.gz

2,2 在/opt目录下解压（顺便哪都行，放到/opt下比较整齐）
安装目录：/opt/tomcat5.5

2,3 修改配置
vi conf/server.xml
QUOTE:

    <Connector port="8080" maxHttpHeaderSize="8192"
            maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               c disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />

默认服务端口为8080，若有冲突（如Apache），则可通过此配置文件更改端口（蓝色）
如果配置后nutch出现中文乱码问题，则增加编码配置（红色）

2,4 启动服务
/opt/tomcat5.5/bin/startup.sh

2,5 题外话
Debian下可通过 apt-get install tomcat5.5 来安装，
默认安装后路径为 /usr/share/tomcat5.5
并且增加到服务 /etc/init.d/tomcat5.5
注意，此时webapps目录并不在安装路径，而在/var/lib/tomcat5.5/webapps/
初始时该目录并无内容，所以访问时会出现 http 400 错误的请求，只需在该路径放置web应用就可。
（在使用这种方式安装tomcat后，nutch老是没法运行，改成上面的安装就可以，不知是什么问题）

3, nutch-0.9
3,1 下载http://lucene.apache.org/nutch/

3,2 解压后，建立目录，建 urls/nutch.txt文件，指定爬取列表
mkdir urls
vi urls/nutch.txt
写入要爬取的网站，这里实验南开bbs
QUOTE:
http://bbs.nankai.edu.cn

3,3 指定爬虫规则
vi conf/crawl-urlfilter.txt
QUOTE:
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*/.)*MY.DOMAIN.NAME/

把这里改成你要的域名
如 +^http://bbs.nankai.edu.cn/

如果爬取网站的url含有以下过滤字符，如 ? 和 = ，而你又需要这些访问，可以更改过滤表
QUOTE:
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]

改为
-[*!@]

3,4 修改 conf/nutch-site.xml
QUOTE:
<configuration>
        <property>
                <name>http.agent.name</name>
                <value>HD nutch agent</value>
        </property>
        <property>
                <name>http.agent.version</name>
                <value>1.0</value>
        </property>
</configuration>

如果没有配置此agent，爬取时会出现 Agent name not configured! 的错误。

3.5 开始爬取
可以指定不同的抓去深度，线程数，
bin/nutch crawl urls -dir NKBBS -depth 50 -threads 5 -topN 1000
爬取索引完成后，结果生成在设定的目录中，这里是NKBBS

3,6 部署web前端
将 nutch-0.9.war 拷贝到webapps目录下
cp nutch-0.9.war /opt/tomcat5.5/webapps/
通过浏览器访问http://localhost:8080/nutch-0.9/后，war包自解压。

3,7 修改nutch的web配置
vi /opt/tomcat5.5/webapps/nutch-0.9/WEB-INF/classes/nutch-site.xml
将内容更改为索引生成的目录。
QUOTE:
<nutch-conf>
        <property>
                <name>searcher.dir</name>
                <value>/home/northtree/SearchEngine/nutch-0.9/NKBBS/</value>
        </property>
</nutch-conf>

转自 http://www.tzsy.cn/blog/146/viewspace-43268.html