Nutch保存要抓取的起始网页

最新推荐文章于 2022-04-04 14:47:33 发布

iteye_20080

最新推荐文章于 2022-04-04 14:47:33 发布

阅读量94

点赞数

分类专栏： Java 文章标签： runtime

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iteye_20080/article/details/82298916

版权

Java 专栏收录该内容

54 篇文章 0 订阅

订阅专栏

在\home\apache-nutch-1.4-bin\runtime\local下新建urls新建url.txt输入如下内容:

http://www.163.com/

http://www.baidu.com/

http://www.sina.com.cn/

http://www.renren.com/

更改\home\apache-nutch-1.4-bin\runtime\local\conf\regex-urlfilter.txt最下面：

# accept anything else

#+^http://([a-z0-9]*\.)*(.*\.)*.*/

#+^http://([a-z0-9]*\.)*nutch.apache.org/

+^http://([a-z0-9]*\.)*renren.com/

+^http://([a-z0-9]*\.)*163.com/

+^http://([a-z0-9]*\.)*baidu.com/

+^http://([a-z0-9]*\.)*sina.com.cn/

如果配置了solr，就可以执行了： bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 5 -topN 100 -threads 4 >&log.txt

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Nutch保存要抓取的起始网页

在\home\apache-nutch-1.4-bin\runtime\local下新建urls新建url.txt输入如下内容: http://www.163.com/http://www.baidu.com/http://www.sina.com.cn/http://www.renren.com/更改\home\apache-nutch-1.4-bin\runtime\loc...
复制链接

扫一扫

专栏目录

iteye_20080 CSDN认证博客专家 CSDN认证企业博客

码龄6年

254: 原创

-: 周排名

45万+: 总排名

10万+: 访问

: 等级

759: 积分

7: 粉丝

20: 获赞

7: 评论

106: 收藏

私信

关注

热门文章

分类专栏

VI 6篇
Java 54篇
Android 17篇
Web 8篇
linux 37篇
Matlab 5篇
Kindle 1篇
SQL 13篇
Windows 4篇
PHP 3篇
UML 2篇
Nginx 2篇
Hadoop 3篇
Solr 4篇
Lucene 4篇
Mahout 8篇
Nutch 1篇
面经 6篇
SQL Server 4篇
设计模式 1篇
C++ 1篇
JSP 1篇
Oracle 75篇
WebLogic 2篇
AIX 1篇
UNIX 9篇

最新评论

Dr.com 网页版
m0_53580739: 你这是原创？你这代码完全复制
hibernate使用数据库中表字段的默认值
weixin_48400306: 看了这么多就你他喵的写的最好
记录点滴
AI+Maynor: 我，***，一枚互联网开发工程师，博客专家，看到此文章决定给你点个赞，请继续加油，有一天回首往事的时候你会觉得，那些奋斗的岁月是你一生的精华。
Dr.com 网页版
我不信，我不听: 这有什么用啊
Matlab中cell类型转换为string类型
Zeus&Jesus: strcat获得的是char类型的，自己去看看

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。