nutch1.5编译过程

最新推荐文章于 2024-11-04 23:45:00 发布

devil27

最新推荐文章于 2024-11-04 23:45:00 发布

阅读量447

点赞数

文章标签：网络爬虫 ant plugins solr tomcat build

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/devil27/article/details/8104009

版权

1 下载nutch 1.5

2 安装ant apt-get install ant

3 解压nutch1.5并进入解压目录

4 切换成root用户，不然编译会没反应，然后运行命令ant

5 将build目录编译得到的apache-nutch-1.5.jar 和apache-nutch-1.5.job拷贝到lib目录下面，然后将lib目录和plugins两个目录都拷贝到上一层目录

6 将src里面的bin文件夹拷本到上一层目录

7 接下来就是配置了到解压包的目录下有一个目录 Conf 下面有一个文件nutch-site.xml 里加入如下
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property
这个配置的目的就是为自己的网络爬虫设置名字

8 用命令创建文件夹urls 在文件夹下创建一个txt文件 seed.txt 或者你自己命名的在txt文件里你可以加入http://www.sina.com.cn/或者其他你想要抓取的网站链接
9 修改 regex-urlfilter.txt文件同样在conf目录里把 +. 替换成+^http://([a-z0-9]*\.)*sina.com.cn/
10 执行bin/nutch crawl urls -dir crawl -depth 3 -topN 5 命令执行完后你会看到
crawl/crawldb
crawl/linkdb
crawl/segments
被创建

至此，nutch已经跑了起来，下一步就是将结果搭建tomcat或者Solr

devil27 CSDN认证博客专家 CSDN认证企业博客

码龄17年

18: 原创

144万+: 周排名

116万+: 总排名

1万+: 访问

: 等级

393: 积分

1: 粉丝

1: 获赞

4: 评论

6: 收藏

私信

关注

热门文章

分类专栏

最新评论

eclipe搭建hadoop应用开发环境
绝杀fc小飞侠: hadoopor论坛上看到的，过来mark一下
java API开发hbase启动错误解决办法
hahhh: 如果你在Linux下开发就不会有这种问题，如果是windows下，那么就应该把hbase-site.xml拷到Windows下对应的$HBASE_HOME/conf里，然后再找个工程的build path里把这个conf加进去，就不会出现你的这种问题了
hadoop-1.0.4编译eclipse plugin插件
yjyz0623: 非常好而且简洁的方法，最后的ant jar 是在 hadoop home/src/contrib/eclipse-plugin的目录下运行，生成的插件位置是hadoop home/build/contrib/eclipse-plugin中
ralink 2070 移植到android记录
huanghaoqin: 麻烦想问一下为什么我安装完了wirelesstool之后，在开发版上运行iw的相关命令时出现segmentation fault的报错呢？是不是编译源码之前要改一下头文件的物理地址啊？？如果要改应该改成什么的地址？求帮助。。。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。