做爬虫的时候数据的清洗也是一大重点,往往绕不开三种处理办法
1.正则表达式
2.xpath表达式
3.json
这篇文章主要示范一下java引用xpath表达式的基本方法,在解析html文件的时候会用到,前提需要有一定xpath基础
xpath解析html页面,需要用到第三方包,借助maven项目下载
<dependency>
<groupId>cn.wanghaomiao</groupId>
<artifactId>JsoupXpath</artifactId>
<version>0.3.2</version>
</dependency>
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.3</version>
</dependency>
然后就可以调用了。
主要分为以下几步:
1.把html转为document对象
2.把document对象转为xml对象
3.写好xpath表达式
4.xml对象利用表达式解析出数据,返回结果为列表
public static void test(String html) throws XpathSyntaxErrorException {
Document doc = Jsoup.parse(html);
JXDocument jxd = new JXDocument(doc); // 转为xml
String xpath = "//div/....";
List result = jxd.selN(xpath);
}