java实现爬虫改变人生!(二)

前言:一说到java爬虫,一般用Jsoup解析,方便嘛。那么不一般情况下呢?如要解析js,css等。所以要用到htmlunit,但是一般来说,在小型爬虫项目中,这种框架十分常用,可以有效的分析出 dom的标签,并且有效的运行页面上的js以便得到一些需要执行JS才能得到的值。
也就是说可以爬取老司机某V的资源,然后你的数据库就是大数据了,拥有百亿种籽;你也可以爬取某东和某猫的商品信息,然后用某种排序算法,取得最便宜最廉价的商品;你当反爬虫的吃bianbian的。。。
我们就介绍一下用法:

HtmlDivision divs = (HtmlDivision) page.getByXPath("//div[@class='hotwords']").get(0);
            Iterable<DomElement> ddList = divs.getChildElements();
            Iterator<DomElement> iter = ddList.iterator();
            while (iter.hasNext()) {
                Resource resource = new Resource();
                DomElement dom = iter.next();
                String title = dom.getAttribute("title");
                String resourceUrl = url + dom.getAttribute("href");
                resource.setTitle(title);
                resource.setUrl(resourceUrl);
                resultList.add(resource);
            }

解析:大概意思就是。。。看数据库吧。以下是爬了几个例子,如果有什么不足,可以自己爬取一下。
艳辉网

有人就说,某度网盘那么多资源,为什么不爬它,你当某度的吃~~,不信你自己爬爬
艳辉网

下载地址:链接:http://pan.baidu.com/s/1i5wVRnf 密码:br99

全CSDN的丰(好)色(se)博客,这里有书本看不到的Java技术,电影院禁播的电影,欢迎关注QQ群494808400

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值