nutch入门教程[更新视频下载连接]

最新推荐文章于 2023-02-03 17:59:58 发布

iteye_17246

最新推荐文章于 2023-02-03 17:59:58 发布

阅读量232

点赞数

分类专栏： nutch 文章标签： nutch cygwin java爬虫

本文链接：https://blog.csdn.net/iteye_17246/article/details/82485528

版权

nutch 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在windows下需要使用cygwin 模拟linux环境

下载地址 : www.cygwin.com

下载之后安装

一路默认下一步(切记不要断开网络这个安装包只是一个下载器，安装需要联网)

选择一个地址，继续下一步，我这里选择的是163的地址

继续默认下一步，会自动下载需要的文件

安装完成

双击快捷图标，会出现

输入命令试试吧
下面开始nutch之旅吧

nutch下载地址如下：

http://nutch.apache.org

解压nutch包之后会发现有如下内容

我们需要修改conf中的文件1. 编辑conf/crawl-urlfilter.txt

修改MY.DOMAIN.NAME为

+^http://([a-z0-9]*.)*.*/

2.修改conf/nutch-site.xml

增加http.agent.name值

<property>
<name>urlfilter.regex.file</name>
<value>crawl-urlfilter.txt</value>
<description>Name of file on CLASSPATH containing regular expressions
used by urlfilter-regex (RegexURLFilter) plugin.</description>
</property>

指定过滤文件未crawl-urlfilter.txt

3.编写url.txt文件

在nutch的根目录，编写url.txt 比如我要抓取sina.com.cn

http://www.sina.com.cn/
http://www.sina.com.cn

4.安装tomcat

下载tomat，将nutch目录下的nutch.war包放入tomcat的webapps文件夹下，启动tomcat，然后在地址栏输入

http://localhost:8080/nutch

然后输入要搜索的内容，点击search测试一下吧

注意事项
1. 在 nutch-1.2 目录下建url.txt
里面输入:

        http://www.sina.com.cn/
        http://www.sina.com.cn

必须输入两行，否则会出错(这个问题，楼主也找了很久没找到解决方法)
2. 使用cygwin，进入nutch-1.2目录

cd /cygdrive/c/nutch-1.2

设置编码集，否则在采集的时候会报错

export LANG="zh_CN.GBK"

这是因为windows编码集合linux不一致导致

输入以下命令即可执行

bin/nutch crawl url.txt -dir sina -depth 4 -threads 5 -topN 1000 >&sina.log

-dir 后面跟文件名我这里是放在sina目录下

-depth 后面是深度 4 是指采集深度为4层

-threads 后面跟的是线程数 5 是指最大线程数为5

-topN 后面跟数量 1000 是最大采集1000

最后面的就不解释了，是将日志输出到sina.log 中，可以通过这个文件看，是否执行完成

ps:

在网上找到相关的nutch视频教程，提供下载地址(同时在此感谢此视频的作者杨尚川老师 )

http://pan.baidu.com/share/home?uk=3157595467

由于此视频是在土豆网上下载的，找的是720P的源，视频还是很清晰的

在此也贴出源地址吧

nutch平台搭建
http://www.tudou.com/programs/view/4aEaYZsdq0k/

nutch相关框架视频教程
http://www.tudou.com/programs/view/9V6Al3dHEpo/

其他的链接(摘自杨尚川老师的博客)

http://115.com/lb/5lbqfm5w 
(需要115账号)
360云盘
http://yunpan.cn/QE6Ju2N3V8wQJ
金山快盘
http://www.kuaipan.cn/file/id_132146595985621011.htm
土豆在线播放
http://www.tudou.com/home/yangshangchuan
优酷在线播放
http://i.youku.com/yangshangchuan

杨尚川老师的博客地址：
http://yangshangchuan.iteye.com/blog/1837935