问题描述
在使用HtmlUtil访问网页时,网页需要验证session才能正常访问,否则无法正常访问。
解决方法
直接使用.addCookie方法添加
第一个参数是添加的cookie,第二个参数是一个URL类型,第三个暂时不知道
WebClient wc = new WebClient(BrowserVersion.CHROME);
URL url1 = new URL(url);
wc.addCookie("JSESSIONID = " + jsessionid, url1, null);
代码
package com.zoe.common.utils;
import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
/**
* Created by Fjiaer on 2021.3.12.
*/
public class HtmlutilUtils {
public static String getHtml(String url, String jsessionid) throws FailingHttpStatusCodeException,
MalformedURLException,
IOException {
// TODO Auto-generated method stub
WebClient wc = new WebClient(BrowserVersion.CHROME);
// wc.setJavaScriptTimeout(5000);
wc.getOptions().setUseInsecureSSL(true);//接受任何主机连接 无论是否有有效证书
wc.getOptions().setJavaScriptEnabled(true);//设置支持javascript脚本
wc.getOptions().setCssEnabled(true);//禁用css支持
wc.getOptions().setThrowExceptionOnScriptError(false);//js运行错误时不抛出异常
wc.getOptions().setThrowExceptionOnFailingStatusCode(false);
wc.getOptions().setTimeout(100000);//设置连接超时时间
wc.getOptions().setDoNotTrackEnabled(false);
// wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理
URL url1 = new URL(url);
wc.addCookie("JSESSIONID = " + jsessionid, url1, null);
HtmlPage page = wc.getPage(url);
wc.waitForBackgroundJavaScript(1000);//异步JS执行需要耗时,所以这里线程要阻塞30秒,等待异步JS执行结束
// Document document = Jsoup.parse(page.asXml());//获取html文档
String res = page.asXml();
return res;
}
public static void main(String[] args) {
try {
String s = getHtml("http://127.0.0.1:8848/web/1.html", null);
System.out.println("success");
} catch (Exception e) {
e.printStackTrace();
}
}
}