Nutch
滑过的板砖
这个作者很懒,什么都没留下…
展开
-
Nutch2.3+Hbase0.94环境搭建
1,修改nutch-site.xml storage.data.store.class org.apache.gora.hbase.store.HBaseStore Default class for storing data http.agent.name JustinNutchAgent原创 2016-04-25 11:10:07 · 320 阅读 · 0 评论 -
Nutch基本命令
1:nutch读取hbase数据导出文本文件:./nutch readdb -dump /data/nutch_db/1108 -crawlId TestCrawl -content会执行一个mr程序,/data/nutch_db/1108是mr的输出路径TestCrawl是hbase表名的前半部分。2: inject inject new urls into the原创 2016-04-25 11:11:39 · 350 阅读 · 0 评论 -
nutch参考文献地址
杨尚川博客:http://yangshangchuan.iteye.com/ 开源爬虫框架各有什么优缺点:http://www.aboutyun.com/thread-15968-1-1.html#userconsent#搭建Hadoop2.6+Hbase0.98.9+Nutch2.3环境: http://www.xinglongjian.com/原创 2016-04-26 16:28:07 · 404 阅读 · 0 评论