爬虫+jsoup轻松爬知乎

最新推荐文章于 2024-04-30 14:28:06 发布

风中飘摇我亦妖娆

最新推荐文章于 2024-04-30 14:28:06 发布

阅读量1.5k

点赞数 2

分类专栏： java爬虫学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29347295/article/details/79000322

版权

本次写的爬虫调用了jsoup jar包，jsoup是优秀的HTML解析器，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据，而且封装了get方法，可以直接调用获取页面。结合谷歌浏览器抓取页面元素快感不断。下面简单介绍一下用法顺便贴个知乎爬知乎的代码。

jsoup包的import就不说了，jsoup最主要用到的就是的elements类和select（）方法。elements类相当于网页元素中的标签，而select（）方法用于按一定条件选取符合条件的标签，组成符合条件的标签数组。element支持转成字符串或者文本等。总之功能很强大。只需要了解一下select（）方法的过滤规则即可上手用了。但是有了谷歌浏览器！过滤规则都不用管了，直接上手用！
来个示例：
1.打开谷歌浏览器，右键单机想要抓取的元素，比如我右击了“Spring的JavaConfig注解这篇文章”选择检查，自动跳出源码框，并且定位到右键的元素的位置。
这里写图片描述
2.右键点击代码行，copy–>copy selector

3.这时候我们可以贴出来看看copy到的东西：

#div_JK > div.item_list > div:nth-child(1) > div.dTit.tracking-ad > a
 
 
 
  1

最低0.47元/天解锁文章

风中飘摇我亦妖娆

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
爬虫+jsoup轻松爬知乎

本次写的爬虫调用了jsoup jar包，jsoup是优秀的HTML解析器，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据，而且封装了get方法，可以直接调用获取页面。结合谷歌浏览器抓取页面元素快感不断。下面简单介绍一下用法顺便贴个知乎爬知乎的代码。jsoup包的import就不说了，jsoup最主要用到的就是的elements类和select（）方法。elements
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。