java jsoup 登录抓取_Java+Jsoup实现网页内容抓取

最新推荐文章于 2022-11-13 21:17:35 发布

欧阳娟频

最新推荐文章于 2022-11-13 21:17:35 发布

阅读量121

点赞数

文章标签： java jsoup 登录抓取

本文链接：https://blog.csdn.net/weixin_32304839/article/details/114534669

版权

不知不觉毕业快一年了，工作逐渐趋于平淡，从一个对编程了解得很少甚至完全一窍不通的小小菜，终于成为了一枚小菜，总而言之，算是入了IT这一行。这大半年马马虎虎做了三个项目，有安卓项目，有Java Web项目，也有Asp.Net项目，接触到的东西太多了，自然感觉自己要学的东西越多，现在对学习方向好迷茫啊。今天人品也不行，进地铁的时候，手机被小心被扒了，说多了都是泪啊。就在这愤恨和无聊之际，开始了我的第一篇博客.

最近跟我同学新成立了个工作室.需要用到爬虫技术，由于他们都没做过，而我以前做过一些简单的爬虫技术(高中的时候喜欢看小说，所以自己做了个爬虫下小说玩)。以前的实现方式是直接用URLConnection发送POST请求获取整个网页内容，然后自己写正则表达式去获取自己需要的内容，工作量有点大。于是在网上搜搜看，发现Jsoup还不错，跟Jquery的API相差无几。花了几个小时看了看API和敲了几个Demo就开始实践了。这里我们以糗事百科为例。

首先，我们打开IE进入糗事百科的首页，选择检查元素。调整下格式，图如下(QQ截图，请尽情吐槽⊙▂⊙)：

在上面的三张图中，我们发现糗事百科的每一段内容都是包含在一个class="block untagged mb15 bs2"的div中的，而每个div中又包含了4个子div,其中class="author"的div用于显示内容发布者的信息(包括头像和昵称)，class="content"的div主要用于显示图片配文，class="thumb"主要是用于显示图片。至于最后一个class="bar"的div则是用于显示一些媒体分享操作栏。

知道了上面这些就好办了。下面大家就可以敲代码啦。`(*∩_∩*)′。

欧阳娟频

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

java jsoup 登录 抓取_Java+Jsoup实现网页内容抓取

java jsoup 登录抓取_Java+Jsoup实现网页内容抓取