![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nutch爬虫
文章平均质量分 83
柱子89
在读学生
展开
-
Nutch教程——导入Nutch工程,执行完整爬取 by 逼格DATA
在使用本教程之前,需要满足条件: 1)有一台Linux或linux虚拟机 2)安装JDK(推荐1.7) 3)安装Apache Ant 下载Nutch源码: 推荐使用Nutch 1.9,官方下载地址:http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1.9-src.zip 安装IDE: 推荐使用Intell转载 2017-07-14 10:00:19 · 496 阅读 · 0 评论 -
读取nutch爬取内容方法
读取nutch内容有如下两种方法: 1 通过Nutch api SegmentReader读取。 public Content readSegment(String segPath,String url){ Text key= new Text(url); Path转载 2017-07-14 10:04:44 · 719 阅读 · 0 评论 -
Nutch教程——准备篇 by 逼格DATA
实在是看不下去Nutch官方的坑爹教程了,总结一套看完能懂的Nutch教程,持续更新中。 开发环境和基础: 学习Nutch,必须满足以下几个条件,缺一不可: 1)Linux环境,实在是没办法就在Windows上装linux虚拟机。 2)熟悉Java。 3)有Hadoop基础,能够编写hadoop下map reduce程序。 4)能够看懂Linux Shell。 下转载 2017-07-14 10:27:45 · 761 阅读 · 0 评论