[万神小栈]SpringBoot结合Jsoup 实现java 爬虫-CSDN博客

本文链接：https://blog.csdn.net/u010654175/article/details/136492928

java整合Jsoup 实现网络爬虫

文章、图片等都可以爬取
注: 以下仅为简单示例,仅用于学习用途

1.Maven中添加jsoup的依赖

<dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.14.3</version> <!-- or latest version -->
        </dependency>

2.省略Controller

serviceImpl中的业务实现

String url = "要爬取的网址";
//发送get请求
Document document = Jsoup.connect(url).get();
//方法二
Connection.Response response = Jsoup.connect(url)
                .method(Connection.Method.POST)
                .header("User-Agent", "Mozilla/5.0")
                .header("Accept", "text/html,application/xhtml+xml,application/xml")
                .data("param1", "value1")
                .data("param2", "value2")
                .execute();
 //获取某个标签下的内容
Elements content= document.getElementsByClass("爬取标签的class名称")
// 转为String
	String result = content.get(0).toString();
	//后面根据自己业务需求写
	// 保存文件到本地 or 添加到数据库中 ...