python读取docx文件出错_读取docx文件时出现错误的特殊字符

在尝试使用Python代码从.docx文件中提取包含特殊字符(如'ç'或'á')的文本时,遇到错误。代码通过zipfile和xml.etree模块解析document.xml,但未能正确处理特殊字符,导致输出不正确。示例中,原始文本包含葡萄牙语的特殊字符,但解析后的结果显示为编码错误。
摘要由CSDN通过智能技术生成

我试图使用下面的代码从.docx获取文本,但问题是文本包含特殊字符(例如“ç”或“á”),并且代码没有正确地读取文件。在try:

from xml.etree.cElementTree import XML

except ImportError:

from xml.etree.ElementTree import XML

import zipfile

"""

Module that extract text from MS XML Word document (.docx).

(Inspired by python-docx )

"""

WORD_NAMESPACE = '{http://schemas.openxmlformats.org/wordprocessingml/2006/main}'

PARA = WORD_NAMESPACE + 'p'

TEXT = WORD_NAMESPACE + 't'

def get_docx_text(path):

"""

Take the path of a docx file as argument, return the text in unicode.

"""

document = zipfile.ZipFile(path)

xml_content = document.read('word/document.xml')

document.close()

tree = XML(xml_content)

paragraphs = []

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值