序言:jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
所需jar包:
首先我们要确定一个要爬取的网站—起点中文网的希灵帝国
网址:https://www.qidian.com/search?kw=希灵帝国
第一,我们要在开发者模式里找到你想爬的内容的具体位置。
比如说我想爬书名:
可以看到书名就在 book-img-text 容器内部
我们按照级别 ,一级一级的分析下来:
→book-img-text
→ul
→li
→book-mid-info
→h4
→a
接着就是书名了,我们在代码里按照分析的结果获取书名:
package com.demo;
import java.io.IOEx