正则提取<div>中间的内容

最新推荐文章于 2024-07-17 02:18:44 发布

月光轩辕-

最新推荐文章于 2024-07-17 02:18:44 发布

阅读量7.8k

点赞数

分类专栏：正则表达式文章标签：正则

本文链接：https://blog.csdn.net/u010953266/article/details/44903603

版权

正则表达式专栏收录该内容

4 篇文章 0 订阅

订阅专栏

package com.yueguang.regex;

import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileWriter;
import java.io.IOException;
import java.util.Scanner;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class ParseDIV {
	public static void main(String[] args) throws IOException {
		Pattern pattern = Pattern.compile("(<div>)([^<]*)(</div>)");
		File file = new File("overview.html");
		FileWriter fileWriter = new FileWriter(new File("output.txt"));
		Scanner in = new Scanner(file, "UTF8");
		// Scanner in = new Scanner(System.in,"UTF8");
		while (in.hasNextLine()) {
			String nextLine = in.nextLine();
			Matcher matcher = pattern.matcher(nextLine);
			// System.out.println(nextLine);
			// System.out.println(matcher);
			while (matcher.find()) {
//				System.out.println(matcher.group(2));
			    fileWriter.write(matcher.group(2)+"\n");
			}
		}
		fileWriter.flush();
		fileWriter.close();
	}
}

输入是一个需要提取的内容在每行上都以<div>content</div>的形式表示，可以一行有多个，只要每行上的格式完整

简单的正则的应用，里面值得注意的地方是不要把 [^<] 写成 . ；因为点会匹配所有字符，那么如果一行存在多个第一个div中的内容和最后一个div中间内容都会被匹配到，我们只需要明白<不可能出现在div 里，并且这是div 结束符号的开始，那么我们就可以成功匹配到正确的content，另外值得说的一点是字符集的问题，我的IDE中配置的是UTF8，显示的时候如果使用了ANSI之类的格式都会显示乱码，改一下编辑器的默认显示格式即可