优点:可设置一个运行JavaScript的时间,解决页面数据延时加载问题
缺点:慢,而且参数不好设置
// 爬取网站网址+关键字(关键字需转换为gbk的url,如"%2B%3E")
String url = "http://s.zhaobiao.cn/search.do?queryword=" + URLEncoder.encode(name, "GBK");
// 查询参数
Map<String, String> parameMap = new HashMap<>();
// 查询关键字(上方已设置)
// parameMap.put("queryword", URLEncoder.encode(name, "GBK"));
// 省份
parameMap.put("province", "");
// 查询类型:招标
parameMap.put("searchtype", "zb");
// 投标文件
parameMap.put("bidfile", "");
// 推荐
parameMap.put("recommend", "");
//
parameMap.put("leftday", "");
// 查询年份
parameMap.put("searchyear", "");
// 全文搜索
parameMap.put("field", "all");
// 展示方式为标题(title) 附概要(abstract)
parameMap.put("displayStyle", "title");
// 是否搜索附件 0.不搜索 1.搜索
parameMap.put("attachment", "1");
// 查询历史开始时间
parameMap.put("starttime", startTime);
// 查询历史结束时间
parameMap.put("endtime", endTime);
for (Entry<String, String> en : parameMap.entrySet()) {
url += "&" + en.getKey() + "=" + en.getValue();
}
// 构造一个webClient 模拟Chrome 浏览器
WebClient webClient = new WebClient(BrowserVersion.CHROME);
// 支持JavaScript
webClient.getOptions().setJavaScriptEnabled(true);
webClient.getOptions().setCssEnabled(false);
webClient.getOptions().setActiveXNative(false);
webClient.getOptions().setCssEnabled(false);
webClient.getOptions().setThrowExceptionOnScriptError(false);
webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
webClient.getOptions().setTimeout(5000);
// 设置一个运行JavaScript的时间,解决页面数据延时加载问题
webClient.waitForBackgroundJavaScript(5000);
HtmlPage rootPage;
try {
rootPage = webClient.getPage(url);
//如果执行的太快导致页面请求异常,请设置等待时间
try {
Thread.sleep(1000);
} catch (InterruptedException e) {
// TODO Auto-generated catch block
LOGGER.error("线程休眠1秒钟出现异常!", e);
e.printStackTrace();
}
String html = rootPage.asXml();
Document doc = Jsoup.parse(html);
// 解析
Element limit = doc.body().selectFirst("div[class=html]");