怎么用Python提取txt的章节目录？_python实现 txt文档取出目录,可点击跳转-CSDN博客

本文链接：https://blog.csdn.net/qq_37944726/article/details/128667971

该文章介绍了一种使用Python的正则表达式库re来从TXT格式的小说中提取章节标题的方法。通过re.compile()函数编译正则表达式，然后使用re.finditer()找出所有匹配的章节，适用于章节标题格式为第X章的情况，其中X是中文数字。文章强调了调整正则表达式以适应不同章节格式的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提取txt文本中的章节

在网络上下载的小说，一般是txt格式的，并且往往是没有目录的。

那么有没办法提取出小说的目录呢？

下面是一个示例代码，用于提取txt文本中的章节作为目录：

import re

# 定义章节标题的正则表达式
# 将【正则表达式的字符串形式】编译为一个【正则表达式对象】
pattern = re.compile(r'第[一二三四五六七八九十百千万壹贰叁肆伍陆柒捌玖拾佰仟]{1,6}章')

# 读取txt文件内容
with open('book.txt', 'r', encoding='utf-8') as f:
    content = f.read()

# 查找所有匹配的章节标题
for match in pattern.finditer(): # content为需要查找的内容
    print(match.group()) # 打印找到的str

这段代码使用正则表达式来查找文本中所有章节标题，并将它们输出到控制台。

在这个例子中，章节标题的格式为 “第X章”，其中X表示章节数，可能是中文数字。

如果您的文本中的章节格式不同，请修改正则表达式以匹配您的格式。

re.compile()

re.compile() 是 Python 中正则表达式库 re 中的一个函数。

它的作用是将【正则表达式的字符串形式】编译为一个【正则表达式对象】，这样可以提高正则匹配的效率。

使用 re.compile() 后，可以使用该对象的方法进行匹配和替换操作。

语法：

re.compile(pattern[, flags])

参数说明：

pattern：要编译的正则表达式字符串
flags：正则表达式的标志位,可选参数，如IGNORECASE,DOTALL,MULTILINE等

返回值：返回编译后的正则表达式对象

示例：

import re

pattern = re.compile(r'\d+')

可以看出，re.compile() 函数是将正则表达式的字符串形式转化为正则表达式对象,以便使用其方法(match,search,findall…)更高效的进行正则匹配。

re.finditer()

re.finditer() 是 Python 中正则表达式模块 re 中的一个函数，它可以在字符串中查找所有与模式匹配的部分，并返回一个迭代器。

这个迭代器返回每个匹配项作为一个 match 对象，它有一些有用的属性，如 start() 和 end()，可以用来确定匹配的文本的位置。

语法:

re.finditer(pattern, string, flags=0)

参数:

pattern : 正则表达式模式字符串。
string : 要查找的字符串。
flags : 可选，正则表达式的标志参数，如 re.IGNORECASE, re.MULTILINE 等。

示例:

import re

string = "The rain in Spain"
x = re.finditer("ai", string)
for match in x:
  print(match.start(), match.group())

输出:

4 ai

说明:上面程序中，在字符串中查找所有 “ai” 的所有匹配项，并使用迭代器输出每个匹配项的开始位置。