java使用htmlunit爬取百度搜索信息

最新推荐文章于 2024-01-28 14:32:32 发布

VIP文章犹明白

最新推荐文章于 2024-01-28 14:32:32 发布

阅读量2.9k

点赞数 5

本文链接：https://blog.csdn.net/qq_15144655/article/details/53419788

版权

在maven项目里添加所需的开源包，这里我使用2.23版本

<dependency>   
        <groupId>net.sourceforge.htmlunit</groupId>  
        <artifactId>htmlunit</artifactId>  
        <version>2.23</version>  
</dependency>

htmlunit的基本设置，实现百度高级搜索：

public static String Baidu(String keyword)throws Exception{
    WebClient webclient = new WebClient()；
       //ssl认证
    //webclient.getOptions().setUseInsecureSSL(true);
       //由于有的网页js书写不规范htmlunit会报错，所以去除这种错误让程序执行完全（不影响结果）
    webclient.getOptions().setThrowExceptionOnScriptError(false);
    webclient.getOptions().setThrowExceptionOnFailingStatusCode(false);
       //不加载css
    webclient.getOptions().setCssEnabled(false);
       //由于是动态网页所以一定要加载js及执行
    webclient.getOptions().setJavaScriptEnabled(true);
    //打开百度高级搜索的网址
    HtmlPage htmlpage = webclient.getPage("

最低0.47元/天解锁文章

犹明白

关注

5
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
java使用htmlunit爬取百度搜索信息

在maven项目里添加所需的开源包，这里我使用2.23版本&lt;dependency&gt; &lt;groupId&gt;net.sourceforge.htmlunit&lt;/groupId&gt; &lt;artifactId&gt;htmlunit&lt;/artifactId&gt; &lt;version&gt;2...
复制链接

扫一扫