目录
五、错误等待时间 过x秒后再请求(防止对少数服务器请求过快,拒绝请求)
十、POST请求就是把“GET”关键字替换成“POST”关键字
一、Jsoup的GET无参请求
public static void connectMethod() {
// 有的时候,我们无法爬取一些网页,会出现403错误,因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。那么如果我们向爬取这些网页的信息,应该怎么办呢?
// 可以设置一些Headers信息,模拟成浏览器去访问这些网站,此时,就能够解决这个问题了。接下来我们来找找自己浏览器的Headers属性。
Document doc = null;
try {
String url = "http://www.bjwb.gzbj.cn/html/2021-04/15/content_662276.htm";
Connection conn = Jsoup.connect(url);
// Response rs = conn.header("Accept", "*/*")
conn.header("Accept", "*/*")
.header("Accept-Encoding", "gzip, deflate")
.header("Accept-Language","zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3")
.header("Content-Type", "application/json;charset=UTF-8")
.heade