from docx import Document
from openpyxl import Workbook
from openpyxl.styles import Alignment, Border, borders, colors,Side
# 原始word文件和要生成的Excel文件
fn_word = 'E:\\Desktop\\提取章节标题.docx'
fn_excel = fn_word[:-5] + '2.xlsx'
# 创建空白Excel文件,获取第一个空白工作表
wb = Workbook()
ws = wb.worksheets[0]
# 添加表头
ws.append(['一级目录','二级目录','三级目录'])
first2,first3 = 1,1
# 遍历word文件中的所有段落文本
for p in Document(fn_word).paragraphs:
# 删除段落文本两侧的空白字符
txt = p.text.rstrip()
# 直接跳过空行
if not txt:
continue
# 添加为一级标题
if p.style.name == 'Heading 1':
first2 = 1
print(p.text)
ws.append([txt,'',''])
# 添加为二级标题
elif p.style.name == 'Heading 2':
print(p.text)
if first2==1:
# 第一个二级目录,不添加新行
# 直接和一级目录写在同一行
#print(txt)
list(ws.rows
Python提取Word文件中的目录标题保存为Excel文件
最新推荐文章于 2024-06-27 10:27:35 发布
使用Python的python-docx模块,将Word文件中的三级标题导出到Excel。涉及安装、卸载docx包的问题,以及代码实现过程。
摘要由CSDN通过智能技术生成