Jsoup+HtmlUnit 爬虫

最新推荐文章于 2024-01-28 14:32:32 发布

猎虫师

最新推荐文章于 2024-01-28 14:32:32 发布

阅读量773

点赞数

分类专栏： java学习文章标签： Jsoup HtmlUnit 爬虫

本文链接：https://blog.csdn.net/qq_28553681/article/details/79151066

版权

java学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

最近学习java的爬虫，爬取双色球网站的内容，刚开始只用了Jsoup，可以爬取到全部的内容，还以为自己的爬虫技术OK了；结果双色球网站更新了，就爬取不到了，只能继续学习；

因为网站的数据是JS动态加载的，所以需要解析JS；百度学习了好几篇文章，自己实践了一下，Jsoup+HtmlUnit搞定问题；

Jsoup版本：jsoup-1.10.3.jar

HtmlUnit版本：htmlunit-2.23；

WebClient webclient = new WebClient();
webclient.getOptions().setJavaScriptEnabled(false);
//启用JS，测试删除可以也可以，估计默认为true，但是不能设置为false；
		
Document doc = null;
try {
	HtmlPage page = webclient.getPage(url);
	doc = Jsoup.parse(page.asXml());
	} catch (IOException e) {
	   // TODO 自动生成的 catch 块
	e.printStackTrace();
	}

再通过 doc.select("selector，可以通过chrome浏览器开发者模式获取") 就可以获取到需要的定位；

暂时学习到这，其它方面继续学习吧。