前言:一说到java爬虫,一般用Jsoup解析,方便嘛。那么不一般情况下呢?如要解析js,css等。所以要用到htmlunit,但是一般来说,在小型爬虫项目中,这种框架十分常用,可以有效的分析出 dom的标签,并且有效的运行页面上的js以便得到一些需要执行JS才能得到的值。
也就是说可以爬取老司机某V的资源,然后你的数据库就是大数据了,拥有百亿种籽;你也可以爬取某东和某猫的商品信息,然后用某种排序算法,取得最便宜最廉价的商品;你当反爬虫的吃bianbian的。。。
我们就介绍一下用法:
HtmlDivision divs = (HtmlDivision) page.getByXPath("//div[@class='hotwords']").get(0);
Iterable<DomElement> ddList = divs.getChildElements();
Iterator<DomElement> iter = ddList.iterator();
while (iter.hasNext()) {
Resource resource = new Resource();
DomElement dom = iter.next();
String title = dom.getAttribute("title");
String resourceUrl = url + dom.getAttribute("href");
resource.setTitle(title);
resource.setUrl(resourceUrl);
resultList.add(resource);
}
解析:大概意思就是。。。看数据库吧。以下是爬了几个例子,如果有什么不足,可以自己爬取一下。
有人就说,某度网盘那么多资源,为什么不爬它,你当某度的吃~~,不信你自己爬爬
下载地址:链接:http://pan.baidu.com/s/1i5wVRnf 密码:br99
全CSDN的丰(好)色(se)博客,这里有书本看不到的Java技术,电影院禁播的电影,欢迎关注QQ群494808400