nutch 初体验

最新推荐文章于 2024-07-25 13:52:48 发布

StevenCoder

最新推荐文章于 2024-07-25 13:52:48 发布

阅读量489

点赞数

文章标签： hadoop tomcat file image 浏览器 exe

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liaosongbo/article/details/5662608

版权

因为nutch中就有Hadoop，所以在其中配置Hadoop和原本的Hadoop配置几乎相同。

唯一不同的就是要配置

1.所有节点的nutch-site.xml文件

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>

<name>http.agent.name</name>

<value>nutch-1.0</value>

<description>爬虫和搜索此参数必须配置</description>

</property>

</configuration>

2.配置所有节点上的conf/crawl-urlfilter.txt文件

# skip file:, ftp:, & mailto: urls

-^(file|ftp|mailto):

# skip image and other suffixes we can't yet parse

-/.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$

# skip URLs containing certain characters as probable queries, etc.

-[?*!@=]

# skip URLs with slash-delimited segment that repeats 3+ times, to break loops

-.*(/[^/]+)/[^/]+/1/[^/]+/1/

# accept hosts in MY.DOMAIN.NAME

# 允许下载所有

+^

# skip everything else

-.

然后

bin/hadoop dfs -put crawltest/urls urls（crawltest/urls 是自己定义的种子）

bin/nutch crawl urls -dir data -depth 3 -topN 10 （爬虫将全部数据爬到data中）

爬完之后

bin/hadoop fs –get data data(竟然还要下载到本地！！！！！)

安装tomcat

将Nutch主目录下的WEB前端程序nutch-1.0.war复制到 ***/ tomcat/webapps/目录下。

浏览器中输入http://localhost:8080/nutch-1.0，将自动解压nutch-1.0.war，在webapps下生成nutch-1.0目录。

配置WEB前端程序中的nutch-site.xml文件，该文件所在目录是***/tomcat/webapps/nutch-1.0/WEB-INF/classes/下，配置如下：

<property>

<name>http.agent.name</name> 不可少，否则无搜索结果

<value>nutch-1.0</value>

<description>HTTP 'User-Agent' request header.</description>

</property>

<property>

<name>searcher.dir</name>

<value>D:/data< alue> data是爬虫生成的索引数据目录。参数值请使用绝对路径

<description>Path to root of crawl.</description>

</property>

(6)重启tomcat。更改配置文件后必须重启tomcat，否则不会生效。

(7)在http://localhost:8080/nutch-1.0下检索关键字。

貌似有分布式检索的方法，下一步再研究

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nutch 初体验

<br />因为nutch中就有Hadoop，所以在其中配置Hadoop和原本的Hadoop配置几乎相同。<br />唯一不同的就是要配置<br />1.所有节点的nutch-site.xml文件<br /><?xml version="1.0"?><br /><?xml-stylesheet type="text/xsl" href="configuration.xsl"?><br /><
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。