jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
今天在学习jsoup的时候报了一个错,具体信息如图:
通过网上查阅资料,发现是需要添加ignoreContentType(true),也就是忽略ContextType的检查。
原代码:
return Jsoup.connect(url)
// .header("accept", "application/json, text/plain,*/*")
// .header("Accept-Encoding", "gzip, deflate,br")
// .header("Accept-Language", "zh-CN,zh;q=0.8")//,en-US;q=0.5,en;q=0.3
// .header("Referer", "https://www.baidu.com/")
.header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
.header("Accept-Encoding", "gzip, deflate")
.header("Accept-Language", "zh-CN,zh;q=0.8,en-
.......
修改后:
return Jsoup.connect(url)
.ignoreContentType(true)
// .header("accept", "application/json, text/plain,*/*")
// .header("Accept-Encoding", "gzip, deflate,br")
// .header("Accept-Language", "zh-CN,zh;q=0.8")//,en-US;q=0.5,en;q=0.3
// .header("Referer", "https://www.baidu.com/")
.header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
.header("Accept-Encoding", "gzip, deflate")
.header("Accept-Language", "zh-CN,zh;q=0.8,en-
.......