一、Jsoup自我介绍
大家好,我是Jsoup。
我是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据,用Java写爬虫的同行们十之八九用过我。为什么呢?因为我在这个方面功能强大、使用方便。不信的话,可以继续往下看,代码是不会骗人的。
二、目标内容(虎扑足球,社区热点这一块的标题https://soccer.hupu.com/)
三、两行代码搞定(轻松愉快)
@Test
void Test() throws IOException {
Jsoup.connect("https://soccer.hupu.com/").get().body().getElementsByClass("list-area-main-infinite-item-content-title").forEach(e->{
System.err.println(e.text());
});
}
依赖
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.12.1</version>
</dependency>
四、至于为什么代码这么写?Jsoup原理?怎么分析网站?反爬虫怎么办?
百度就完事了。
灵感基于:
https://www.cnblogs.com/sam-uncle/p/10922366.html
https://www.open-open.com/jsoup/