java:实现根据标点对字符串分行（附带源码）

最新推荐文章于 2025-09-22 14:59:49 发布

原创最新推荐文章于 2025-09-22 14:59:49 发布 · 1k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#java #开发语言

Java 实战项目专栏收录该内容

1306 篇文章

订阅专栏

1. 项目背景详细介绍

在文档排版和文本处理场景中，经常需要将一段连续的文字按照句号、逗号、分号、问号、感叹号等标点符号进行分行，以便于阅读、打印、显示或逐句处理。尤其在聊天机器人、字幕生成、自然语言处理预处理等场景下，将长文本拆分为短句或短行，不仅可以提高可读性，还能为后续的分词、情感分析、关键词提取等业务打下基础。

标准的换行通常依赖固定长度或手动插入换行符，而基于语义标点进行自动分行能更自然地保持语言逻辑，使每行都以完整的语义单位结尾。此外，对于中英文混合、嵌入引号和括号的复杂句式，也需要对标点规则灵活兼容。

本项目旨在设计一套 Java 工具类，能够根据不同配置的标点集合，将输入字符串智能地拆分成多行。它既可用于控制台或日志输出，也可用于 GUI 文本域、文件写入和网络传输，帮助开发者快速实现“按标点分行”的功能。

2. 项目需求详细介绍

2.1 功能需求

可配置标点集合
- 支持设置多个“行末标点”，如 句号(。)、逗号(，)、分号(；)、问号(?)、感叹号(!) 等；
- 支持中英文标点混合；
按标点分行
- 输入：原始字符串 text；
- 输出：List<String> 或 String[]，每个元素为一行文本，行末保留该标点；
连续标点处理
- 若遇到“?!”、“…”等连续标点，视为一组，一并保留在该行末；
行首空白处理
- 新行开始时自动去除前导空格、制表符；
剩余文本处理
- 若最后一行不以标点结尾，仍应作为一行返回；
空字符串与 Null 安全
- 对 null 返回空列表；
- 对空字符串返回长度为 0 或包含一个空串，根据配置选项；

2.2 非功能性需求

性能
- 对于超长文本（百万字符级）需有较高效率，避免 O(n²) 的重复拼接；
线程安全
- 工具类设计为无状态静态方法，内部局部变量或只读常量，支持并发调用；
易用 API
- 提供静态方法和可配置实例两种使用方式：

// 默认实例，使用常用中英文标点
List<String> lines = PunctuationSplitter.split(text);
// 自定义实例
PunctuationSplitter custom = new PunctuationSplitter("。！？", "...",";");
List<String> lines2 = custom.split(text);

可扩展性
- 支持链式追加或替换行末标点集合；
- 方便集成到流式处理管道，如 text.lines().flatMap(...)；
文档与示例
- 按照 Javadoc 规范编写注释；
- 提供示例输入输出、性能对比和常见场景说明。

3. 相关技术详细介绍

3.1 正则表达式与分组

使用 Pattern 和 Matcher：
- 利用正则 ([…标点…]+) 捕获一组或多个连续标点；
- 使用零宽度正向断言 (?<=…) 或 lookaround 精确拆分。

3.2 字符串扫描与拼接

StringBuilder：
- 用于高效地累积当前行字符；
索引遍历：
- 按字符遍历 text.charAt(i)，遇到标点则切分；

3.3 集合与流式 API

使用 List<String> 收集结果；
对接 Java 8+ Stream<String>：

splitter.splitAsStream(text).forEach(System.out::println);

3.4 Unicode 与多字符标点

支持宽字符和 Emoji 标点，如省略号 …（U+2026）等；
正则中需要使用 \\u2026 或直接在字符串常量里写入。

3.5 单元测试与边界测试

使用 JUnit 5 编写测试：
- 测试中英文、连续标点、无标点、空值、Null 情况；
- 性能压力测试。

4. 实现思路详细介绍

工具类设计
- 类名：PunctuationSplitter；
- 包名：com.example.textutils；
- 构造方法：
  - 默认构造：使用常规标点集 ".,;!?，。；！？…"；
  - 参数构造：接受可变长度行末标点字符串；
静态 vs 实例方法
- public static List<String> split(String text) 调用默认实例；
- public List<String> split(String text) 使用实例的标点配置；
分行算法
- 遍历字符串：
  1. 用 StringBuilder line 累积字符；
  2. 每次添加字符后，检查当前位置及向前是否匹配任一行末标点或标点组；
  3. 若匹配，将 line.toString() 加入结果列表，重置 line；
- 遍历结束后，若 line.length()>0，将剩余内容作为最后一行添加；
性能与内存优化
- 标点集合预先存入 Set<String>，匹配时最大长度先匹配长标点（如 ...、…）；
- 避免每次都创建新 StringBuilder，仅在切分点时 line = new StringBuilder()；
流式接口
- public Stream<String> splitAsStream(String text)：将列表转为流，以支持管道操作；
配置 API
- 链式追加行末标点：

splitter.addDelimiter("。")
        .addDelimiter("…")
        .split(text);

5. 完整实现代码

// 文件：PunctuationSplitter.java
package com.example.textutils;

import java.util.*;
import java.util.stream.Stream;

/**
 * 根据标点对字符串分行的工具类
 */
public class PunctuationSplitter {
    // 默认常见中英文行末标点（包括省略号…）
    private static final List<String> DEFAULT_DELIMITERS =
        Arrays.asList("。", "！", "？", "；", "\\.", "!", "\\?", ";", "…");

    // 行末标点集合，按长度降序保证优先匹配多字符标点
    private final List<String> delimiters;

    /**
     * 默认构造，使用 DEFAULT_DELIMITERS
     */
    public PunctuationSplitter() {
        this.delimiters = new ArrayList<>(DEFAULT_DELIMITERS);
        this.delimiters.sort((a, b) -> Integer.compare(b.length(), a.length()));
    }

    /**
     * 自定义构造，接受任意可变长度标点
     * @param customDelimiters 行末标点，如 "。", "..." 等
     */
    public PunctuationSplitter(String... customDelimiters) {
        this.delimiters = new ArrayList<>();
        for (String d : customDelimiters) {
            if (d != null && !d.isEmpty()) this.delimiters.add(d);
        }
        this.delimiters.sort((a, b) -> Integer.compare(b.length(), a.length()));
    }

    /**
     * 静态方法，使用默认分隔符
     */
    public static List<String> split(String text) {
        return new PunctuationSplitter().splitLines(text);
    }

    /**
     * 实例方法，根据本实例的 delimiters 进行分行
     */
    public List<String> splitLines(String text) {
        List<String> lines = new ArrayList<>();
        if (text == null) return lines;
        int len = text.length();
        StringBuilder buf = new StringBuilder();
        for (int i = 0; i < len; ) {
            buf.append(text.charAt(i));
            boolean matched = false;
            for (String d : delimiters) {
                int dl = d.length();
                if (i + 1 >= dl && text.substring(i + 1 - dl, i + 1).equals(d)) {
                    // 切分到当前位置
                    String line = buf.toString().stripLeading();
                    lines.add(line);
                    buf.setLength(0);
                    matched = true;
                    break;
                }
            }
            i++;
            if (matched) {
                // 跳过已处理标点（buf reset 已含）
            }
        }
        // 处理剩余
        if (buf.length() > 0) {
            lines.add(buf.toString().stripLeading());
        }
        return lines;
    }

    /**
     * 返回 Stream 形式的分行结果
     */
    public Stream<String> splitAsStream(String text) {
        return splitLines(text).stream();
    }

    /**
     * 支持链式追加新的行末标点
     */
    public PunctuationSplitter addDelimiter(String d) {
        if (d != null && !d.isEmpty()) {
            delimiters.add(0, d); // 优先匹配
        }
        return this;
    }
}

// 文件：PunctuationSplitterTest.java
package com.example.textutils;

import org.junit.jupiter.api.Test;
import java.util.List;
import static org.junit.jupiter.api.Assertions.*;

/**
 * PunctuationSplitter 单元测试
 */
public class PunctuationSplitterTest {

    @Test
    public void testNull() {
        List<String> lines = PunctuationSplitter.split(null);
        assertTrue(lines.isEmpty());
    }

    @Test
    public void testEmpty() {
        List<String> lines = PunctuationSplitter.split("");
        assertEquals(1, lines.size());
        assertEquals("", lines.get(0));
    }

    @Test
    public void testBasicChinese() {
        String text = "这是第一句。 这是第二句！这是第三句？";
        List<String> lines = PunctuationSplitter.split(text);
        assertEquals(3, lines.size());
        assertEquals("这是第一句。", lines.get(0));
        assertEquals("这是第二句！", lines.get(1));
        assertEquals("这是第三句？", lines.get(2));
    }

    @Test
    public void testEnglishAndEllipsis() {
        String text = "Wait... Are you sure? Yes; absolutely.";
        PunctuationSplitter sp = new PunctuationSplitter("...", "?", ";", "\\.");
        List<String> lines = sp.splitLines(text);
        assertEquals(4, lines.size());
        assertEquals("Wait...", lines.get(0));
        assertEquals("Are you sure?", lines.get(1));
        assertEquals("Yes;", lines.get(2));
        assertEquals("absolutely.", lines.get(3));
    }

    @Test
    public void testLeadingSpaces() {
        String text = "句子一。   句子二？";
        List<String> lines = PunctuationSplitter.split(text);
        assertEquals("句子一。", lines.get(0));
        assertEquals("句子二？", lines.get(1));
    }
}

6. 代码详细解读

构造与分隔符排序
delimiters 按字符串长度降序排序，确保多字符标点（如 ..., …）优先匹配，避免被短标点截断。
splitLines(String)
- 遍历原始 text，每次将当前字符追加到缓冲 buf；
- 同步检查该位置前 d.length() 个字符是否等于某一行末标点；
- 若匹配，则去除行首空白后将 buf 切成一行并重置；
剩余内容处理
遍历结束后，若 buf 非空，作为最后一行加入结果。
stripLeading()
新行去除前导空格与制表符，保证行首干净。
splitAsStream(String)
将 List<String> 转为 Stream<String>，方便流式管道操作。
addDelimiter(String)
链式方法，可动态新增行末标点，且优先匹配最新添加的标点。