html 操作cookie,HtmlUnit 模拟浏览器以及Cookie使用示例

最近写爬虫的时候,利用httpclient抓取一些网页出现一些问题,就是抓取回来的内容都含有大量的加密文本(通过javascript脚本),无法获得真实的内容(也就是用浏览器打开网页呈现的内容)。所以,一般需要配合js引擎来解决这个问题,搜索了下,发现htmlunit这个工具就可以帮忙。了解和使用过程中,发现这是一个非常牛逼的开源工具,虽然名气比httpclient小,但是实力绝对不容小觑。 闲话少说。目前htmlunit的最新版本是2.15,可以从这里下载:http://sourceforge.net/projects/htmlunit/files/htmlunit/2.15/

String url="http://xxxx.xx/";//想采集的网址

String refer="http://xxx.xx/";

URL link=new URL(url);

WebClient wc=new WebClient();

WebRequest request=new WebRequest(link);

request.setCharset("UTF-8");

request.setProxyHost("x.120.120.x");

request.setProxyPort(8080);

request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段

设置请求报文头里的User-Agent字段

request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");

//wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");

//wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。

//其他报文头字段可以根据需要添加

wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理

wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页,这个是必须的

wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页,这个是必须的。

wc.getOptions().setThrowExceptionOnFailingStatusCode(false);

wc.getOptions().setThrowExceptionOnScriptError(false);

wc.getOptions().setTimeout(10000);

//设置cookie。如果你有cookie,可以在这里设置

Set cookies=null;

Iterator i = cookies.iterator();

while (i.hasNext())

{

wc.getCookieManager().addCookie(i.next());

}

//准备工作已经做好了

HtmlPage page=null;

page = wc.getPage(request);

if(page==null)

{

System.out.println("采集 "+url+" 失败!!!");

return ;

}

String content=page.asText();//网页内容保存在content里

if(content==null)

{

System.out.println("采集 "+url+" 失败!!!");

return ;

}

//搞定了

CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name

Set cookies_ret = CM.getCookies();//返回的Cookie在这里,下次请求的时候可能可以用上啦。

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com

特别注意:本站所有转载文章言论不代表本站观点!

本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值