爬虫项目（一）爬虫+jsoup轻松爬知乎

最新推荐文章于 2024-03-15 18:59:07 发布

VIP文章风之自由

最新推荐文章于 2024-03-15 18:59:07 发布

阅读量3.1w

点赞数 24

分类专栏： java爬虫文章标签： java 爬虫 jsoup

本文链接：https://blog.csdn.net/u014798883/article/details/54909951

版权

爬虫+jsoup轻松爬知乎

爬知乎是为了测试调试爬虫，而且知乎很好爬，也建议新手爬一爬知乎和百度知道之类的网站入门。
最近对大数据很感兴趣，趁着写爬虫的劲把java也学了。本人之前很少接触面相对象的编程语言，只有少量的VB基础。了解java之后才发现面向对象语言之美。（对我这样只是把编程当爱好的fish而言）java最美妙的地方即是有丰富的jar包可以调用，还有大神更新源源不断的jar包，比起以前写C语言，每一行代码都自己敲，现在写java，敲一个点，n多功能函数直接调用，而且代码质量都很高，简直就是搬砖屌丝到摸腿高富帅的升级！

我最开始写的爬虫没用jsoup包，直接用java自带的httpconnect获取，用parttern，matcher加正则语法筛选标签和元素。正则语法看的晕，parttern定义的模板通用性很差。做出来的爬虫整体代码冗长，完全没有代码的美感。

本次写的爬虫调用了jsoup jar包，jsoup是优秀的HTML解析器，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据，而且封装了get方法，可以直接调用获取页面。结合谷歌浏览器抓取页面元素快感不断。下面简单介绍一下用法顺便贴个知乎爬知乎的代码。

jsoup包的import就不说了，jsoup最主要用到的就是的elements类和select（）方法。elements类相当于网页元素中的标签，而select（）方法用于按一定条件选取符合条件的标签，组成符合条件的标签数组。element支持转成字符串或者文本等。总之功能很强大。只需要了解一下select（）方法的过滤规则即可上手用了。但是有了谷歌浏览器！过滤规则都不用管了，直接上手用！
来个示例：
1.打开谷歌浏览器，右键单机想要抓取的元素，比如我右击了“Spring的JavaConfig注解这篇文章”选择检查，自动跳出源码框，并且定位到右键的元素的位置。
这里写图片描述
2.右键点击代码行，copy–>copy selector