nutch学习
流星梦123
专注数据分析
展开
-
nutch 学习 过滤器
Nutch的conf目录中有automaton-urlfilter.txt、regex-urlfilter.txt、suffix-urlfilter.txt、prefix-urlfilter.txt、domain-urlfilter.txt几个文件用于实现过滤抓取数据,比如不抓取后缀为gif、exe的文件等,通过修改其中的值可以达到只抓取感兴趣的内容的目的,在一定程度上也有助于提高抓取速度转载 2015-07-31 23:24:55 · 318 阅读 · 0 评论 -
nutch protocol not found
eclipse 搭建完成nutch 2.2.1 之后,运行,报错如下: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http at org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:91)原创 2015-08-01 08:33:46 · 1169 阅读 · 0 评论 -
nutch 配置crawl-urlfilter.txt,regex-urlfilter.txt和nutch-site.xml
1:解压缩的nutch后,到conf下面修改crawl-urlfilter.txt # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*apache.org/ +^http://([a-z0-9]*\.)*longtask.com/blog/ 如果有需要可以继续添加相关的站点. 2:修改conf下面的nutch转载 2015-08-01 08:39:04 · 1310 阅读 · 0 评论 -
nutch 过滤字符
今天碰到问题,url正则过滤老是出问题,不爽之下,又打开源码了。 Crawl.java里有这么一段 for (i = 0; i // generate new segment Path[] segs = generator.generate(crawlDb, segments, -1, topN, System .currentTimeMillis())转载 2015-08-01 14:05:14 · 318 阅读 · 0 评论 -
nutch2.2.1 mysql 建表语句
CREATE TABLE `webpage` ( `id` varchar(250) NOT NULL, `headers` blob, `text` mediumtext, `status` int(11) DEFAULT NULL, `markers` blob, `parseStatus` blob, `modifiedTime` bigint(20原创 2015-08-01 21:45:46 · 759 阅读 · 0 评论 -
Nutch2.2.1 开发环境搭建
1. 环境准备 需要的环境有jdk1.7,Eclipse,SVN,ant,以及Eclipse下的两个插件subclipse 和IvyDe,下载地http://subclipse.tigris.org/update_1.8.x和http://www.apache.org/dist/ant/ivyde/updatesite。 2.从SVN检出项目 地址https://svn.apach原创 2015-08-02 19:56:46 · 421 阅读 · 0 评论