htmlunit网络爬虫相关

最新推荐文章于 2022-03-28 09:41:11 发布

angx

最新推荐文章于 2022-03-28 09:41:11 发布

阅读量478

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/meandmyself/article/details/41255263

版权

http://sourceforge.net/projects/htmlunit/files/

String url="http://news.cnblogs.com/";//想采集的网址

String refer="http://www.cnblogs.com/";

URL link=new URL(url); WebClient wc=new WebClient(); WebRequest request=new WebRequest(link); request.setCharset("UTF-8"); request.setProxyHost("120.120.120.x"); request.setProxyPort(8080); request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段 ////设置请求报文头里的User-Agent字段 request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2"); //wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2"); //wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。 //其他报文头字段可以根据需要添加 wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理 wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页，这个是必须的 wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页，这个是必须的。 wc.getOptions().setThrowExceptionOnFailingStatusCode(false); wc.getOptions().setThrowExceptionOnScriptError(false); wc.getOptions().setTimeout(10000); //设置cookie。如果你有cookie，可以在这里设置 Set<Cookie> cookies=null; Iterator<Cookie> i = cookies.iterator(); while (i.hasNext()) { wc.getCookieManager().addCookie(i.next()); } //准备工作已经做好了 HtmlPage page=null; page = wc.getPage(request); if(page==null) { System.out.println("采集 "+url+" 失败!!!"); return ; } String content=page.asText();//网页内容保存在content里 if(content==null) { System.out.println("采集 "+url+" 失败!!!"); return ; } //搞定了 CookieManager CM = wc.getCookieManager(); //WC = Your WebClient's name Set<Cookie> cookies_ret = CM.getCookies();//返回的Cookie在这里，下次请求的时候可能可以用上啦

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
htmlunit网络爬虫相关

http://sourceforge.net/projects/htmlunit/files/
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。