做爬虫的时候数据的清洗也是一大重点,往往绕不开三种处理办法
1.正则表达式
2.xpath表达式
3.json
这篇文章主要示范一下java引用正则表达式的基本方法
正则表达式的主要条件只有两个:其一是表达式本身,其二就是要查找的数据源。
主要分为四步:
1.写出表达式
2.把表达式编译成正则格式
3.创建一个匹配对象进行匹配
4.利用循环遍历出所有结果
public static void test(){
String source = "this is java's hello world,i'm a handsome boy!"; // 数据源
String pat = "this(.*?),"; // 表达式
Pattern pattern = Pattern.compile(pat); // 把表达式进行编译
Matcher m = pattern.matcher(source); // 创建匹配器,进行匹配
while (m.find()) {
System.out.println(m.group()); // group不填参数代表找出表达式中的全部信息;若表达式包含(),则group(1)代表只找出括号中的信息;若有两个(),(),则group(2)代表找出第二个括号中的信息
}