爬网页数据

最新推荐文章于 2021-11-29 15:55:37 发布

numberOneJava

最新推荐文章于 2021-11-29 15:55:37 发布

阅读量174

点赞数 1

分类专栏： java爬数据

本文链接：https://blog.csdn.net/numberonejava/article/details/86558186

版权

java爬数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

使用htmlunit爬网页数据，优点支持js的执行

// 得到浏览器对象，直接New一个就能得到，现在就好比说你得到了一个浏览器了
WebClient webclient = new WebClient();

       // 这里是配置一下不加载css和javaScript，因为httpunit对javascript兼容性不太好
       webclient.getOptions().setCssEnabled(false);
       webclient.getOptions().setJavaScriptEnabled(false);

       // 做的第一件事，去拿到这个网页，只需要调用getPage这个方法即可
       HtmlPage htmlpage = webclient.getPage("http://baidu.com");
       System.out.println(htmlpage.asXml());

       // 根据名字得到一个表单，查看上面这个网页的源代码可以发现表单的名字叫“f”
       final HtmlForm form = htmlpage.getFormByName("f");
       // 同样道理，获取”百度一下“这个按钮
       final HtmlSubmitInput button = form.getInputByValue("百度一下");
       // 得到搜索框
       final HtmlTextInput textField = form.getInputByName("q1");
       // 搜索我的id
       textField.setValueAttribute("th是个小屁孩");
       // 输入好了，我们点一下这个按钮
       final HtmlPage nextPage = button.click();
       // 我把结果转成String
       String result = nextPage.asXml();

System.out.println(result); // 得到的是点击后的网页

numberOneJava

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬网页数据

使用htmlunit爬网页数据，优点支持js的执行 // 得到浏览器对象，直接New一个就能得到，现在就好比说你得到了一个浏览器了 WebClient webclient = new WebClient(); // 这里是配置一下不加载css和javaScript，因为httpunit对javascript兼容性不太好 we...
复制链接

扫一扫