2015年08月_流星梦123

08月 07月 06月

原创 nutch 2.2.1 InjectorJob 类

InjectorJob 类主要是从文件中读取URL，对URL进行处理后，写入到webpage表中。 UrlMapper 类

2015-08-05 21:06:05 311

原创 nutch2.2.1抓取流程

整体流程： InjectorJob => GeneratorJob => FetcherJob => ParserJob => DbUpdaterJob => SolrIndexerJob InjectorJob : 从文件中得到一批种子网页，把它们放到抓取数据库中去 GeneratorJob: 从抓取数据库中产生要抓取的页面放到抓取队列中去 FetcherJob: 对

2015-08-04 21:11:17 324

原创 Nutch2.2.1 开发环境搭建

1. 环境准备需要的环境有jdk1.7，Eclipse，SVN，ant，以及Eclipse下的两个插件subclipse 和IvyDe，下载地http://subclipse.tigris.org/update_1.8.x和http://www.apache.org/dist/ant/ivyde/updatesite。 2.从SVN检出项目地址https://svn.apach

2015-08-02 19:56:46 421

原创 nutch2.2.1 mysql 建表语句

CREATE TABLE `webpage` ( `id` varchar(250) NOT NULL, `headers` blob, `text` mediumtext, `status` int(11) DEFAULT NULL, `markers` blob, `parseStatus` blob, `modifiedTime` bigint(20

2015-08-01 21:45:46 759

转载 nutch 过滤字符

今天碰到问题，url正则过滤老是出问题，不爽之下，又打开源码了。 Crawl.java里有这么一段 for (i = 0; i // generate new segment Path[] segs = generator.generate(crawlDb, segments, -1, topN, System .currentTimeMillis())

2015-08-01 14:05:14 318

转载 nutch 配置crawl-urlfilter.txt，regex-urlfilter.txt和nutch-site.xml

1：解压缩的nutch后，到conf下面修改crawl-urlfilter.txt # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*apache.org/ +^http://([a-z0-9]*\.)*longtask.com/blog/ 如果有需要可以继续添加相关的站点. 2：修改conf下面的nutch

2015-08-01 08:39:04 1310

原创 nutch protocol not found

eclipse 搭建完成nutch 2.2.1 之后，运行，报错如下： org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http at org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:91)

2015-08-01 08:33:46 1169