源码
文章平均质量分 82
犀利-sharp
这个作者很懒,什么都没留下…
展开
-
从crawl 脚本看 nutch crawl过程 上
crawl 脚本用来实现 nutch 中对于网页的抓取 分析 索引工作。 把工程下下来之后 ,进入到 bin 目录:两个脚本文件 crawl nutch crawl 是对nutch 的进一步封装 首先我们看一下他的注释:# UNLIKE THE NUTCH ALL-IN-ONE-CRAWL COMMAND THIS SCRIPT DOES THE LINK INVERSIO原创 2016-07-05 11:24:06 · 456 阅读 · 0 评论 -
nutch crawler 解析 下
好,咱们继续。parse$bin/nutch parse $commonOptions $skipRecordsOptions $CRAWL_PATH/segments/$SEGMENTCLASS=org.apache.nutch.parse.ParseSegment这就是传说中的解析网页内容的操作。map中:首先只解析成功的内容,看上一步返回的状态码,如果不是成功的情况直原创 2016-07-05 11:24:16 · 283 阅读 · 0 评论 -
lucene 4.6 之indexing 之 IndexChain,索引数据结构
/* This is the current indexing chain: DocConsumer / DocConsumerPerThread --> code: DocFieldProcessor --> DocFieldConsumer / DocFieldConsumerPerField -原创 2016-07-05 11:30:07 · 320 阅读 · 0 评论