java整合Jsoup 实现网络爬虫
文章、图片等都可以爬取
注: 以下仅为简单示例,仅用于学习用途
1.Maven中添加jsoup的依赖
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.14.3</version> <!-- or latest version -->
</dependency>
2.省略Controller
serviceImpl中的业务实现
String url = "要爬取的网址";
//发送get请求
Document document = Jsoup.connect(url).get();
//方法二
Connection.Response response = Jsoup.connect(url)
.method(Connection.Method.POST)
.header("User-Agent", "Mozilla/5.0")
.header("Accept", "text/html,application/xhtml+xml,application/xml")
.data("param1", "value1")
.data("param2", "value2")
.execute();
//获取某个标签下的内容
Elements content= document.getElementsByClass("爬取标签的class名称")
// 转为String
String result = content.get(0).toString();
//后面根据自己业务需求写
// 保存文件到本地 or 添加到数据库中 ...
结尾: 1.尽量模拟人类的访问行为,包括设置合理的请求头、合理的访问间隔等,以减少被识别为爬虫的可能性。