通过Java爬虫访问网站

最新推荐文章于 2022-08-05 17:51:26 发布

旧单车

最新推荐文章于 2022-08-05 17:51:26 发布

阅读量2.4k

点赞数

分类专栏： java爬虫文章标签：爬虫 java 阅读量 java爬虫增加阅读量

本文链接：https://blog.csdn.net/weixin_43001280/article/details/96431928

版权

java爬虫专栏收录该内容

0 篇文章 0 订阅

订阅专栏

功能：实现利用java访问网站（~~增加阅读量~~ ），并获取其中的信息，保存到本地

工具：

eclipse
浏览器（谷歌）
jsoup包下载地址：maven工厂：https://mvnrepository.com/artifact/org.jsoup/jsoup/1.8.3

知识准备：

Jsoup官方文档：https://jsoup.org/
Java IO操作
html（各种标签）,Javascript基础（类选择器）

基本思路
网络爬虫的基本思路是：爬虫线程从待抓取URL队列中拿取一个URL -> 模拟浏览器请求到目标URL -> 将网页内容下载回来 -> 然后对页面的内容进行解析、获取目标数据保存到相应的存储 -> 再以一定的规则从当前抓取的网页中获取接下来需要继续爬取的URL。

Demo例子

//url:访问的网站
String url="https://blog.csdn.net/weixin_43001280";
//userAngent用户代理 www.useragentstring.com/pages/useragentstring.php?name=Chrome
String userAngent="Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0";
Document doc = Jsoup.connect(listurl)
.userAgent(userAngent)
//超时连接时间
.timeout(3000).post();

接下来就可以通过获取到的Document 进行筛选，获取想要的信息
例如获取所有a标签：

Elements elements = doc.getElementsByTag("a");// 找到所有a标签

获取到之后，就可以根据blog的名字进行查找文章

String relHref = element.attr("href");
if (!relHref.startsWith("http://") 
							&& relHref.contains(blogName) 
							&& relHref.contains("details")
							&& relHref.contains("article")
)

遍历到文章之后就可以访问文章，~~增加文章的阅读量~~ ，下载文章了

Jsoup.connect(relHref).userAgent(userAgenti).timeout(3000).post();

旧单车

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
通过Java爬虫访问网站

功能：实现利用java访问网站（增加阅读量），并获取其中的信息，保存到本地工具：eclipse（intellij）浏览器（谷歌）jsoup包 maven工厂：https://mvnrepository.com/artifact/org.jsoup/jsoup/1.8.3知识准备：Jsoup官方文档：https://jsoup.org/Java IO操作html（各种标签）...
复制链接

扫一扫

专栏目录