爬虫-nutch

背景

如今这个大数据的时代,爬虫 屡见不鲜,提起爬虫大家第一反应肯定是python,诚然python有优势,但是其实java干这事也不赖,今天博主就来实践一下,用大名鼎鼎的Nutch来实现一个爬虫。
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

安装

博主使用centos7,所以这里只介绍centos7的安装方法

  1. JDK安装
//linux一般默认安装opensdk需要先卸载:
java -version
rpm -qa | grep java
rpm -e --nodeps java-1.4.2-gcj-compat-1.4.2.0-40jpp.115
rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.7.b09.el5
cd /usr
mkdir java
//下载jdk 1.7 gz包
//www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html
//xshell传过去
tar -zxvf xxxxxxxx.gz  //解压
vi /etc/profile       //配置环境变量
export      JAVA_HOME=/usr/java/jdk1.7.67_10
export     CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export     PATH=$PATH:$JAVA_HOME/bin
source /etc/profile   //使配置生效
java -version   //查看是否安装成功
  1. tomcat安装
//下载tomcat.apache.org/download-70.cgi
xshell传到/usr目录下
tar -zxvf apache-tomcat-7.0.70.tar.gz  //解压
mv apache-tomcat-7.0.70 tomcat   //改名
rm -rf apache-tomcat-7.0.70.tar.gz  //删包
chomod -R 777 tomcat           //权限
cd tomcat/bin
./startup.sh                        //执行
localhost:8080 查看是否安装成功
  1. nutch1.12安装
//下载http://nutch.apache.org/downloads.html     Apache Nutch 1.12 (bin.tar.gz)
xshell传到/usr目录下
tar -zxvf apache-nutch-1.12-bin.tar.gz   //解压
mv apache-nutch-1.12 nutch  //改名
chmod -R 777 nutch/   //权限
cd /bin
./nutch    //查看是否安装成功

修改Nuthc安装目录下:conf/nutch-site.xml,在之间增加如下配置
300b3d4183f4c2c28ee5ea2943ca03a3.gif

在Nutch安装目录下创建urls目录,并在其中创建seed.txt文件,将要爬的网站的名称写到seed.txt中。注意,网站最后要加/。如需要写成http://www.baidu.com/这种形式。
在Nutch安装目录下创建result目录,放置爬虫爬下来的结果数据。改路径不一定要放到Nutch安装目录下,也可以放到其他任意目录下。
爬虫执行完成后,可以通过如下命令来查看结果:

bin/nutch readdb result/crawldb/ -stats

请关注我的订阅号

订阅号.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码哥说

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值