java读取txt文件,正则匹配,提取特定开头和结尾的字符串

前言

前天刚入职的算法同事,过来问我怎么提取txt文件中的数据,我一看这还不简单,结果…搞了好久。

正则不用真的会忘记,写篇博客增加一下记忆吧。

需求:提取txt文件中,有特定开头(双引号) ,特定结尾(双引号) 的中间的数据,打印出来


一、使用FileInputStream处理

FileInputStream:是java中的字节输入流,就是通过字节的形式进行读取

构造方法 可以通过传递指定打开文件的路径字符串,来创建FileInputStrem对象

new FileInputStrem("文件路径")  

InputStremReader 是连接字节流和字符流之间的桥梁,我们通过 new InputStremReader() 的构造方法,传递一个FileInputStrem对象,和一个编码格式,这个编码格式具体根据你要读取文件的编码格式

InputStreamReader(file,"UTF-8");

编码格式可以打开txt文件在右下角查看

在这里插入图片描述

// 这里利用了一下小技巧就是 我这个同事给我的文件 每个要提取的数据都在同一行内,所以可以通过每行读取。

        while ((line = br.readLine()) != null) {
            System.out.println(getPatternCode(line,rgex));
        }

二、使用正则开始匹配

1.匹配规则书写

正则表达式匹配规则 这里是以 (ox) 开始 以“ 结尾
这里的第一对括号防止防止转义 所以加了\
然后()表示一个子表达式的开始和结尾 要匹配这两个字符的话 就用上面的\
.表示匹配任意
*表示匹配任意多个
\” 表示匹配最后字符
这里的规则大概就是这样,可以根据需要自己匹配

String rgex = "\\(0x\\)(.*?)\"";

2.pattern

pattern是正则表达式的编译形式 匹配的模式
Pattern.compile 是获取Pattern实例,Pattern的构造器是私有的,只能通过compile方法获取

Pattern pattern = Pattern.compile(rgex);

matcher类也是私有的,只能通过pattern.matcher来创建,
构造方法传递一个参数时,返回一个matcher实例,是匹配上的字符串
构造方法传递两个参数时,返回一个boolean值,表示是否匹配上指定的字符串

  Matcher m = pattern.matcher(string);

m.find() 是部分匹配,
从给定的字符串开始匹配,第一次匹配到之后 如果没有重置,则会从上次匹配到的最后一个字符的下一位开始往后匹配
匹配成功后会返回 true

m.find()

m.group() 是返回匹配的数据
group(0) 是返回原始匹配的数据
group(1) 是返回第一次匹配到的数据

m.group(1);

代码案例

package fileOperation;

import java.io.*;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * @program: solution
 * @description: 读取文件 利用正则表达式筛选数据
 * @author: Wang Hai Xin
 * @create: 2022-10-24 18:52
 **/
public class txtFiltration {

    public static void main(String[] args) throws IOException {
        /**/
        FileInputStream file = new FileInputStream("C:\\project\\solution\\src\\main\\java\\fileOperation\\djk-Log 2022-10-21 17_48_06.txt");
        /*指定文件类型*/
        InputStreamReader isr = new InputStreamReader(file, "UTF-8");

        BufferedReader br = new BufferedReader(isr);

        /*匹配规则*/
        String rgex = "\\(0x\\)(.*?)\"";

        String line = null;
        while ((line = br.readLine()) != null) {
            System.out.println(getPatternCode(line,rgex));
        }
    }
    
    public static String getPatternCode(String string, String rgex){
        // 匹配的模式
        Pattern pattern = Pattern.compile(rgex);
        Matcher m = pattern.matcher(string);
        while (m.find()) {
            return m.group(1);
        }
        return null;
    }
}

效果展示,直接将结果从控制台复制使用即可

注意:控制台展示的数目有限,如果出现前半部分丢失, 可能是控制台展示的数据达到上限,可以通过输出到指定文件或者exel文件中
在这里插入图片描述

  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 要使用 Java 正则表达式来匹配和获取文本文件,可以按照以下步骤进行: 1. 读取文本文件的内容,可以使用 Java文件输入流(FileInputStream)和缓冲输入流(BufferedInputStream)来实现。 2. 使用 Java正则表达式类(Pattern)和匹配器类(Matcher)来编译和匹配正则表达式。例如,可以使用 Pattern 类的 compile() 方法来编译正则表达式,然后使用 Matcher 类的 matcher() 方法来匹配文本文件中的内容。 3. 在正则表达式中使用元字符和特殊字符来匹配文本文件中的内容。例如,可以使用字符类(Character Class)来匹配任何单个字符,或者使用量词(Quantifiers)来匹配多个字符。 4. 在匹配成功后,可以使用 Matcher 类的 group() 方法来获取匹配到的内容。 以下是一个示例代码,演示了如何使用 Java 正则表达式来匹配并获取文本文件中的内容: ```java import java.io.BufferedReader; import java.io.FileInputStream; import java.io.IOException; import java.io.InputStreamReader; import java.util.regex.Matcher; import java.util.regex.Pattern; public class FileRegexMatcher { public static void main(String[] args) { String fileName = "file.txt"; String regex = ".*Java.*"; // 匹配包含 Java 的行 try { FileInputStream fis = new FileInputStream(fileName); BufferedReader reader = new BufferedReader(new InputStreamReader(fis)); Pattern pattern = Pattern.compile(regex); String line; while ((line = reader.readLine()) != null) { Matcher matcher = pattern.matcher(line); if (matcher.matches()) { System.out.println(line); } } reader.close(); fis.close(); } catch (IOException e) { e.printStackTrace(); } } } ``` 在这个示例中,我们首先指定了要匹配的文件名和正则表达式。然后,我们使用 FileInputStream 和 BufferedReader 读取文件内容。接着,我们使用 Pattern 类编译正则表达式,并在 while 循环中使用 Matcher 类匹配每一行。最后,如果匹配成功,我们就使用 System.out.println() 输出匹配到的行。 ### 回答2: 在Java中,可以使用正则表达式来进行文件匹配和获取。 首先,我们需要利用Java的File类来访问文件系统,并使用正则表达式来匹配文件名或路径。可以使用File类的listFiles方法来获取指定路径下的所有文件文件夹。然后,我们可以使用正则表达式来筛选出符合条件的文件。 以下是一个简单的示例代码,假设我们要获取指定目录下以".txt"为后缀的所有文件: ```java import java.io.File; import java.util.regex.Matcher; import java.util.regex.Pattern; public class FileMatcher { public static void main(String[] args) { String directory = "/path/to/directory"; // 指定目录路径 String regex = ".*\\.txt$"; // 正则表达式,匹配以".txt"为后缀的文件 File folder = new File(directory); File[] files = folder.listFiles(); // 获取目录下所有文件文件夹 Pattern pattern = Pattern.compile(regex); // 编译正则表达式 for (File file : files) { if (file.isFile()) { // 判断是否为文件 String filename = file.getName(); // 获取文件名 // 使用正则表达式匹配文件名 Matcher matcher = pattern.matcher(filename); if (matcher.matches()) { // 匹配成功 System.out.println(filename); } } } } } ``` 上述代码中,我们首先指定了一个目录路径和一个正则表达式。然后,通过File类的listFiles方法获取目录下的所有文件文件夹,并使用正则表达式匹配文件名。对于每个文件,我们使用Matcher类进行匹配,如果匹配成功,则将文件名输出。 通过以上方式,我们可以根据正则表达式来匹配和获取文件。此外,还可以根据需要进行进一步修改和扩展。 ### 回答3: Java中可以使用正则表达式来匹配和获取文件正则表达式是一种用来描述字符串模式的工具,在Java中可以通过Pattern和Matcher类来实现正则表达式匹配。 首先,我们需要使用正则表达式定义要匹配的文件名模式。例如,如果我们想获取以".txt"结尾文件名,我们可以使用正则表达式"^.+\\.txt$",其中"^"表示匹配字符串的开始,".+"表示匹配一个或多个任意字符,"\\."表示匹配点字符,"txt$"表示匹配以"txt"结尾字符串。 接下来,我们可以使用Pattern.compile方法将正则表达式编译为Pattern对象,并使用Matcher类的find方法进行匹配。例如: ```java String pattern = "^.+\\.txt$"; Pattern regex = Pattern.compile(pattern); File directory = new File("path/to/directory"); File[] files = directory.listFiles(); for (File file : files) { String fileName = file.getName(); Matcher matcher = regex.matcher(fileName); if (matcher.find()) { System.out.println("匹配到文件:" + fileName); } } ``` 上述代码首先定义了一个正则表达式模式,并将其编译为Pattern对象。然后,我们通过File类的listFiles方法获取指定目录下的文件列表。接下来,遍历文件列表,对每个文件名使用Matcher类的find方法进行匹配,如果匹配成功则输出匹配到的文件名。 注意,在使用正则表达式进行文件匹配时,还可以使用其他的符号和模式来定义匹配规则,具体的语法和技巧可以参考正则表达式相关的文档和教程。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黑白极客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值