htmlunit抓取js执行后的网页源码

最新推荐文章于 2024-04-24 15:45:08 发布

scx_white

最新推荐文章于 2024-04-24 15:45:08 发布

阅读量2.2w

点赞数 5

分类专栏：【java】 java 文章标签： htmlunit抓取js执行后的网页源码爬虫 bat批处理

本文链接：https://blog.csdn.net/su20145104009/article/details/52994854

版权

java 同时被 2 个专栏收录

147 篇文章 35 订阅

订阅专栏

【java】

110 篇文章 6 订阅

订阅专栏

上次我不是写了一个自动抓取博客访问量吗（点击打开链接）可是昨天晚上我又运行的时候，发现不能用了。。

运行了几次发现使用URLConnection 得到的网页源码和浏览器直接查看的不同。 URLConnection 使用IO流读取到的源码

只有积分没有访问量了

而使用浏览器访问直接查看源码

有访问。

这也就导致了我的程序不能用了需要更新了

想想原因可能是幕后主使人把访问量放在了js里面动态展示，而我使用URLConnection 访问的静态界面确确实实没有收到。

于是开始百度了百度过来百度过去。。

发现了一个回复了三年还没有结贴的帖子

java爬虫项目，如何获取js执行后的完整网页源代码？

里面回复了好多方法发现有个htmlunit 于是就自己测试一下

发现真的可以。得到了js执行后的源码。

废话不说了。

方法如下

public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException {
		// TODO Auto-generated method stub
		WebClient wc=new WebClient(BrowserVersion.FIREFOX_24);
		wc.setJavaScriptTimeout(5000);
		wc.getOptions().setUseInsecureSSL(true);//接受任何主机连接 无论是否有有效证书
		wc.getOptions().setJavaScriptEnabled(true);//设置支持javascript脚本 
		wc.getOptions().setCssEnabled(false);//禁用css支持
		wc.getOptions().setThrowExceptionOnScriptError(false);//js运行错误时不抛出异常
		wc.getOptions().setTimeout(100000);//设置连接超时时间
		wc.getOptions().setDoNotTrackEnabled(false); 
		HtmlPage page=wc.getPage("http://blog.csdn.net/su20145104009?viewmode=contents");
		
		String res=page.asText();
		//处理源码
		deal(res);
		
	}

最后得到的源码如下：

其它的代码和点击打开链接这篇文章相比几乎没变。如果不明白可以去看一下这里就不再赘述了

执行后成功写入到txt文档

使用了htmlunit会弹出好多异常警告

加上这些代码就会消失了~

LogFactory.getFactory().setAttribute("org.apache.commons.logging.Log",    "org.apache.commons.logging.impl.NoOpLog");

		java.util.logging.Logger.getLogger("com.gargoylesoftware.htmlunit")
		    .setLevel(Level.OFF);

		java.util.logging.Logger.getLogger("org.apache.commons.httpclient")
		    .setLevel(Level.OFF);

由于我们在这里引入了htmlunit 的jar包 .那么再用上次的脚本批量处理就行不通了 ~

而且要引入的jar包也不是一个是多个所以要批量处理了

首先我们要把所有要用的jar包使用-cp命令导入。

可是htmlunit的jar包太多了所以想到一个方法使用for循环遍历htmlunit文件夹里面的jar文件将其处理为一个字符串然后再使用-cp命令全部代码如下

echo off
setlocal enabledelayedexpansion
::定义一个字符串
set str=
::遍历htmlunit文件夹
for /f "delims=" %%a in ('dir /b "E:\lib\htmlunit-2.14-bin\lib\*.jar"') do (
set "str=!str!E:\lib\htmlunit-2.14-bin\lib\%%a;"
)
echo on
e:
javac -cp .;%str% AutoMarkBlogView.java
java -cp .;%str% AutoMarkBlogView
pause

运行结果如下：

htmlunit jar包下载

scx_white

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
14
评论
htmlunit抓取js执行后的网页源码

上次我不是写了一个自动抓取博客访问量吗（点击打开链接）可是昨天晚上我又运行的时候，发现不能用了。。运行了几次发现使用URLConnection 得到的网页源码和浏览器直接查看的不同。 URLConnection 使用IO流读取到的源码只有积分没有访问量了而使用浏览器访问直接查看源码有访问。这也就导致了我的程序不能用了需要更新了想想
复制链接

扫一扫