爬虫二式 —— WebClient

5 篇文章 0 订阅

优点:可设置一个运行JavaScript的时间,解决页面数据延时加载问题

缺点:慢,而且参数不好设置

		// 爬取网站网址+关键字(关键字需转换为gbk的url,如"%2B%3E")
		String url = "http://s.zhaobiao.cn/search.do?queryword=" + URLEncoder.encode(name, "GBK");

		// 查询参数
		Map<String, String> parameMap = new HashMap<>();
		// 查询关键字(上方已设置)
		// parameMap.put("queryword", URLEncoder.encode(name, "GBK"));
		// 省份
		parameMap.put("province", "");
		// 查询类型:招标
		parameMap.put("searchtype", "zb");
		// 投标文件
		parameMap.put("bidfile", "");
		// 推荐
		parameMap.put("recommend", "");
		//
		parameMap.put("leftday", "");
		// 查询年份
		parameMap.put("searchyear", "");
		// 全文搜索
		parameMap.put("field", "all");
		// 展示方式为标题(title) 附概要(abstract)
		parameMap.put("displayStyle", "title");
		// 是否搜索附件 0.不搜索 1.搜索
		parameMap.put("attachment", "1");
		// 查询历史开始时间
		parameMap.put("starttime", startTime);
		// 查询历史结束时间
		parameMap.put("endtime", endTime);

		for (Entry<String, String> en : parameMap.entrySet()) {
			url += "&" + en.getKey() + "=" + en.getValue();
		}

		// 构造一个webClient 模拟Chrome 浏览器
		WebClient webClient = new WebClient(BrowserVersion.CHROME);
		// 支持JavaScript
		webClient.getOptions().setJavaScriptEnabled(true);
		webClient.getOptions().setCssEnabled(false);
		webClient.getOptions().setActiveXNative(false);
		webClient.getOptions().setCssEnabled(false);
		webClient.getOptions().setThrowExceptionOnScriptError(false);
		webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);
		webClient.getOptions().setTimeout(5000);
		// 设置一个运行JavaScript的时间,解决页面数据延时加载问题
		webClient.waitForBackgroundJavaScript(5000);

		HtmlPage rootPage;
		try {
			rootPage = webClient.getPage(url);

        //如果执行的太快导致页面请求异常,请设置等待时间
			try {
				Thread.sleep(1000);
			} catch (InterruptedException e) {
				// TODO Auto-generated catch block
				LOGGER.error("线程休眠1秒钟出现异常!", e);
				e.printStackTrace();
			}
			String html = rootPage.asXml();
			Document doc = Jsoup.parse(html);

			// 解析
			Element limit = doc.body().selectFirst("div[class=html]");

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值