java 爬虫_java写爬虫的工具

一般来说,使用Python写爬虫比较好,为什么呢。入门容易,资料齐全,框架多。目前Python势不可挡。

但是老本行是java怎么办,也要写一些简单的爬虫该使用什么技术呢。

如果你有几年工作经验了,你不会使用URL去加载流,然后一个字符串一个字符串去截取你想要的结果吧。一般想到的是,看看哪里有开源的jar包去使用。今天给大家推荐一个新的htmlparser和新的jsoup。

需要下载的可以去maven仓库下载。

下载完成之后,我们来简单的爬一些网站内容。

这里我推荐一个非常好爬的笑话网站,将这些笑话可以保存在你自己的数据库。

http://www.qiushibaike.net/index(2005).html

18c23a1609fdc182faa3eac826189f48.png

看看这个网站,真的是非常适合初学者爬。

3b6c269da99688e821b0c1abcbac233d.png

我们只需要找到a标记,将里面的网站地址读取下来,然后再去爬内容就行。例如000001.html,我就去爬http://www.qiushibaike.net/000001.html。

首先我们使用htmlparser包。

497a7cd09aa9a01cbaf7904d732504ff.png

输出的结果如下:

9388ef3394724b097e6d47a67ada6504.png

还不错,不过这个毕竟是比较老的包了,没有他的儿子辈们牛逼,对于java来说,子类一般还是比父类厉害点的。我相信jsoup也是站在巨人的肩膀上开发出来的吧。

我这里使用jsoup写了将笑话的内容也找出来的效果。

f519174d820fd307ad46b43b367bb443.png

是不是简单多了

d552239f6956c273f5638dcdda25c148.png

将找到的效果封装成对象

5b54be5315c08156857c0f1b4bc09888.png

这样就可以将这个对象保存到数据库了。

acbff87a839310f428723af31d205425.png

作为入门工具来说还是非常简单的。

但是,爬虫技术是入门容易,精通难,可以说非常难。

大家简单的玩玩是可以的。想要深入的话,那要付出很多,并且还需要有一个聪明的大脑才行。智商要求很高。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值