java实现爬虫改变人生！（二）

最新推荐文章于 2024-07-04 16:04:39 发布

艳学网

最新推荐文章于 2024-07-04 16:04:39 发布

阅读量5.9k

点赞数

分类专栏： java之路文章标签： java 大数据数据库 css 爬虫

本文链接：https://blog.csdn.net/sinat_15153911/article/details/74935908

版权

java之路专栏收录该内容

90 篇文章 2 订阅

订阅专栏

前言：一说到java爬虫，一般用Jsoup解析，方便嘛。那么不一般情况下呢？如要解析js，css等。所以要用到htmlunit，但是一般来说，在小型爬虫项目中，这种框架十分常用，可以有效的分析出 dom的标签，并且有效的运行页面上的js以便得到一些需要执行JS才能得到的值。
也就是说可以爬取老司机某V的资源，然后你的数据库就是大数据了，拥有百亿种籽；你也可以爬取某东和某猫的商品信息，然后用某种排序算法，取得最便宜最廉价的商品；你当反爬虫的吃bianbian的。。。
我们就介绍一下用法：

HtmlDivision divs = (HtmlDivision) page.getByXPath("//div[@class='hotwords']").get(0);
            Iterable<DomElement> ddList = divs.getChildElements();
            Iterator<DomElement> iter = ddList.iterator();
            while (iter.hasNext()) {
                Resource resource = new Resource();
                DomElement dom = iter.next();
                String title = dom.getAttribute("title");
                String resourceUrl = url + dom.getAttribute("href");
                resource.setTitle(title);
                resource.setUrl(resourceUrl);
                resultList.add(resource);
            }