java使用htmlunit爬取百度搜索信息

在maven项目里添加所需的开源包,这里我使用2.23版本

<dependency>   
        <groupId>net.sourceforge.htmlunit</groupId>  
        <artifactId>htmlunit</artifactId>  
        <version>2.23</version>  
</dependency>

htmlunit的基本设置,实现百度高级搜索:

public static String Baidu(String keyword)throws Exception{
    WebClient webclient = new WebClient();
       //ssl认证
    //webclient.getOptions().setUseInsecureSSL(true);
       //由于有的网页js书写不规范htmlunit会报错,所以去除这种错误让程序执行完全(不影响结果)
    webclient.getOptions().setThrowExceptionOnScriptError(false);
    webclient.getOptions().setThrowExceptionOnFailingStatusCode(false);
       //不加载css
    webclient.getOptions().setCssEnabled(false);
       //由于是动态网页所以一定要加载js及执行
    webclient.getOptions().setJavaScriptEnabled(true);
    //打开百度高级搜索的网址
    HtmlPage htmlpage = webclient.getPage("
  • 5
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值