爬虫项目(一)爬虫+jsoup轻松爬知乎

爬虫+jsoup轻松爬知乎

爬知乎是为了测试调试爬虫,而且知乎很好爬,也建议新手爬一爬知乎和百度知道之类的网站入门。
最近对大数据很感兴趣,趁着写爬虫的劲把java也学了。本人之前很少接触面相对象的编程语言,只有少量的VB基础。了解java之后才发现面向对象语言之美。(对我这样只是把编程当爱好的fish而言)java最美妙的地方即是有丰富的jar包可以调用,还有大神更新源源不断的jar包,比起以前写C语言,每一行代码都自己敲,现在写java,敲一个点,n多功能函数直接调用,而且代码质量都很高,简直就是搬砖屌丝到摸腿高富帅的升级!

我最开始写的爬虫没用jsoup包,直接用java自带的httpconnect获取,用parttern,matcher加正则语法筛选标签和元素。正则语法看的晕,parttern定义的模板通用性很差。做出来的爬虫整体代码冗长,完全没有代码的美感。

本次写的爬虫调用了jsoup jar包,jsoup是优秀的HTML解析器,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据,而且封装了get方法,可以直接调用获取页面。结合谷歌浏览器抓取页面元素快感不断。下面简单介绍一下用法顺便贴个知乎爬知乎的代码。

jsoup包的import就不说了,jsoup最主要用到的就是的elements类和select()方法。elements类相当于网页元素中的标签,而select()方法用于按一定条件选取符合条件的标签,组成符合条件的标签数组。element支持转成字符串或者文本等。总之功能很强大。只需要了解一下select()方法的过滤规则即可上手用了。但是有了谷歌浏览器!过滤规则都不用管了,直接上手用!
来个示例:
1.打开谷歌浏览器,右键单机想要抓取的元素,比如我右击了“Spring的JavaConfig注解这篇文章”选择检查,自动跳出源码框,并且定位到右键的元素的位置。
这里写图片描述
2.右键点击代码行,copy–>copy selector

  • 24
    点赞
  • 67
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值