用Python实现Word文档的智能解析与图片处理
在数字化信息爆炸的时代,处理文档数据是许多应用场景中的关键任务。本文将深入探讨如何使用Python编写一个强大的脚本,实现对Word文档的智能解析,包括按章节(H1、H2、H3标题)切分段落,并识别和处理其中的图片,将图片上传后替换为可访问链接。
一、技术背景
在处理复杂的Word文档时,尤其是包含大量结构化内容和图片的文档,如技术手册、报告等,我们常常需要将文档内容进行结构化处理,以便后续的分析、展示或存储。Python作为一种功能强大且简洁易用的编程语言,拥有丰富的库来应对这类任务。python - docx
库用于读取和操作Word文档,requests
库用于与外部API进行交互(如图片上传),而操作系统相关的os
库则用于文件和目录的管理。
二、核心代码实现
1. 图片上传函数
def upload_image(image_path, upload_url):
try:
with open(image_path, 'rb') as file:
files = {'image': file}
response = requests.post(upload_url, files=files)
if response.status_code == 200:
return response.json().get('url')
else:
print(f"上传失败,状态码: {response.status_code}")
except Exception as e:
print(f"上传时发生错误: {e}")
return None
这个函数负责将从Word文档中提取的图片上传到指定的upload_url
。它使用requests
库发送一个POST请求,将图片文件作为files
参数传递。如果上传成功(状态码为200),则从响应的JSON数据中提取图片的可访问链接并返回;否则,打印错误信息并返回None
。
2. 文档处理主函数
def process_docx(docx_path, upload_url):
doc = docx.Document(docx_path)
sections = {}
stack = []
temp_image_dir = 'temp_images'
os.makedirs(temp_image_dir, exist_ok=True)
for para in doc.paragraphs:
if para.style.name.startswith('Heading'):
level = int(para.style.name.split()[1])
while stack and stack[-1][2] >= level:
prev_title, prev_paras, _ = stack.pop()
if prev_title not in sections:
sections[prev_title] = prev_paras
title = para.text
stack.append((title, [], level))
else:
p_text = para.text
image_count = 0
for rel in para._element.xpath('.//w:drawing/wp:inline/a:graphic/a:graphicData/pic:pic'):
for blip in rel.xpath('.//a:blip'):
rId = blip.get('{http://schemas.openxmlformats.org/officeDocument/2006/relationships}embed')
if rId in doc.part.rels:
image_part = doc.part.rels[rId].target_part
image_ext = image_part.content_type.split('/')[-1]
image_path = os.path.join(temp_image_dir, f'{rId}.{image_ext}')
with open(image_path, 'wb') as f:
f.write(image_part.blob)
image_url = upload_image(image_path, upload_url)
if image_url:
placeholder = f'[图片 {image_count}]'
p_text = p_text + f' {placeholder}'
p_text = p_text.replace(placeholder, image_url)
image_count += 1
if stack:
stack[-1][1].append(p_text)
while stack:
prev_title, prev_paras, _ = stack.pop()
if prev_title not in sections:
sections[prev_title] = prev_paras
for filename in os.listdir(temp_image_dir):
file_path = os.path.join(temp_image_dir, filename)
os.remove(file_path)
os.rmdir(temp_image_dir)
return sections
该函数是整个脚本的核心,负责读取Word文档,按章节切分段落,并处理其中的图片。
- 初始化部分:使用
docx.Document
打开指定路径的Word文档,创建一个空字典sections
用于存储切分后的章节内容,一个空列表stack
用于跟踪当前处理的标题层级,同时创建一个临时目录temp_image_dir
用于存储从文档中提取的图片。 - 段落遍历:
- 标题处理:当遇到标题段落(样式名称以
Heading
开头)时,提取标题级别(如H1
为1,H2
为2等)。通过比较当前标题级别与栈顶标题级别,决定是否将栈顶的标题和段落存入sections
字典。如果当前标题级别小于等于栈顶标题级别,说明层级降低或保持不变,将栈顶元素弹出并存储到sections
中(前提是标题不在sections
中已存在)。然后将当前标题及其对应的空段落列表和标题级别压入栈中。 - 普通段落处理:对于非标题段落,首先处理其中的图片。通过
xpath
从段落的XML元素中查找图片相关信息,提取图片并保存到临时目录,调用upload_image
函数上传图片并获取可访问链接,将链接替换到段落文本中。最后将处理后的段落文本添加到栈顶的段落列表中。
- 标题处理:当遇到标题段落(样式名称以
- 剩余内容处理:遍历结束后,栈中可能还剩余一些标题和段落,将它们依次弹出并存储到
sections
字典中。 - 清理临时目录:最后,删除临时目录及其所有文件,释放资源。
3. 主程序部分
if __name__ == "__main__":
docx_path = 'Z:/知识图谱问答/黑龙江省一卡通平台 软件操作手册 202501(财政).docx'
upload_url = 'http://localhost:5000/upload'
result = process_docx(docx_path, upload_url)
for section_title, paragraphs in result.items():
print(f"章节: {section_title}")
for para in paragraphs:
# print('-------------')
print(para)
print("-" * 50)
在主程序中,指定要处理的Word文档路径和图片上传的接口地址,调用process_docx
函数处理文档,并将结果按章节打印输出。
三、代码运行与测试
在运行代码之前,确保已经安装了所需的库:
pip install python - docx requests
将docx_path
替换为实际的Word文档路径,upload_url
替换为有效的图片上传接口地址(如本地运行的Flask应用提供的上传接口)。运行脚本后,你将看到文档按章节切分,图片被正确上传并替换为可访问链接的输出结果。
四、总结与展望
通过上述脚本,我们展示了如何利用Python高效地处理Word文档,实现按章节切分和图片处理的功能。这在知识图谱构建、文档管理系统开发、内容提取与分析等领域具有广泛的应用前景。未来,可以进一步优化代码,例如增加对更多图片格式的支持、提高上传效率、完善错误处理机制等。同时,可以将该功能集成到更复杂的应用系统中,为用户提供更强大的文档处理服务。希望本文能为你在处理Word文档相关任务时提供有益的参考和启发。