- 博客(7)
- 资源 (7)
- 收藏
- 关注
原创 nutch 2.2.1 InjectorJob 类
InjectorJob 类主要是从文件中读取URL,对URL进行处理后,写入到webpage表中。 UrlMapper 类
2015-08-05 21:06:05 311
原创 nutch2.2.1抓取流程
整体流程: InjectorJob => GeneratorJob => FetcherJob => ParserJob => DbUpdaterJob => SolrIndexerJob InjectorJob : 从文件中得到一批种子网页,把它们放到抓取数据库中去 GeneratorJob: 从抓取数据库中产生要抓取的页面放到抓取队列中去 FetcherJob: 对
2015-08-04 21:11:17 324
原创 Nutch2.2.1 开发环境搭建
1. 环境准备 需要的环境有jdk1.7,Eclipse,SVN,ant,以及Eclipse下的两个插件subclipse 和IvyDe,下载地http://subclipse.tigris.org/update_1.8.x和http://www.apache.org/dist/ant/ivyde/updatesite。 2.从SVN检出项目 地址https://svn.apach
2015-08-02 19:56:46 421
原创 nutch2.2.1 mysql 建表语句
CREATE TABLE `webpage` ( `id` varchar(250) NOT NULL, `headers` blob, `text` mediumtext, `status` int(11) DEFAULT NULL, `markers` blob, `parseStatus` blob, `modifiedTime` bigint(20
2015-08-01 21:45:46 759
转载 nutch 过滤字符
今天碰到问题,url正则过滤老是出问题,不爽之下,又打开源码了。 Crawl.java里有这么一段 for (i = 0; i // generate new segment Path[] segs = generator.generate(crawlDb, segments, -1, topN, System .currentTimeMillis())
2015-08-01 14:05:14 318
转载 nutch 配置crawl-urlfilter.txt,regex-urlfilter.txt和nutch-site.xml
1:解压缩的nutch后,到conf下面修改crawl-urlfilter.txt # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]*\.)*apache.org/ +^http://([a-z0-9]*\.)*longtask.com/blog/ 如果有需要可以继续添加相关的站点. 2:修改conf下面的nutch
2015-08-01 08:39:04 1310
原创 nutch protocol not found
eclipse 搭建完成nutch 2.2.1 之后,运行,报错如下: org.apache.nutch.protocol.ProtocolNotFound: protocol not found for url=http at org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:91)
2015-08-01 08:33:46 1169
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人