大数据处理研究
kegan1
这个作者很懒,什么都没留下…
展开
-
Nutch index源代码解析(一)
Nutch集成slor的索引方法介绍 /** * 建立索引 * @param solrUrl solr的web地址 * @param crawlDb 爬取DB的存放路径:\crawl\crawldb * @param linkDb 爬取link的存放路径:\crawl\linkdb * @param segments 元数据存放路径:\crawl\se...2013-03-14 10:41:34 · 112 阅读 · 0 评论 -
Nutch index源代码解析二)
接着上篇文档~~~~~ 上篇文章写到,Nutch采用一个MR对爬取下来的文档进行清洗和封装成一个action列表。 接下来介绍怎么爬取下来的数据如何推送给solr。 ----------------------------------------------------华丽的分割线--------------------------------------------- Ntuch自定义...2013-03-15 10:56:54 · 113 阅读 · 0 评论