java 爬虫技术---上

最新推荐文章于 2024-07-04 16:04:39 发布

追寻free

最新推荐文章于 2024-07-04 16:04:39 发布

阅读量1.9w

点赞数

分类专栏：爬虫文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33350186/article/details/68489829

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言：ceo给了个需求，让我爬取某某论坛的文章，两个论坛，只爬取他们最新资讯模块的内容。爬取到的内容存入数据库，每天8点进行更新。然后由运营审核选取合适的新闻定时推送到app上。

简单分析了需求之后，开始进行技术选型，java爬虫也是有很多种类的，可以使用比较成熟的框架。我这里使用的是jsoup，简单粗暴的一种技术。

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

先来个简单的demo做个演示，

 Document doc = Jsoup.connect(url).get();

        //获得文章标题
        String title2 = doc.select("具体选择器内容").get(0).text();

这段代码很好理解，就是爬取指定url下文章的一个标题。使用jsoup的话，首先要导入jsoup的jar包。然后就可以直接使用。代码的第一步是得到一个dom对象，就是我们浏览器打开一个网页右键检查看到的代码样子。得到这整个网页的html代码之后，开始进行过滤操作。可以使用各种选择器来进行数据的过滤，熟悉js,jq的同学做这快工作的时候还是想对比较简单的。这里又一个jsoup选择器的连接，大家可以参考下，基本可以满足我们的需求。jsoup api文档

选择器的选择是十分重要的，比如我们想爬取标题，就去找它标签对应的唯一的class属性，不唯一的话就往上一层，或者通过ID也可以，甚至组合属性，具体情况具体分析，针对不同的网页都要制定一套适配的方案。这是我初步爬取到的结果：

后续爬取后的处理，与移动端的交互请看下篇！有问题，欢迎咨询QQ1093022745

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。