我正在尝试使用zipfile在Python上读取受密码保护的Word文档。以下代码适用于不受密码保护的文档,但与受密码保护的文件一起使用时会出错。
try:fromxml.etree.cElementTreeimportXMLexceptImportError:fromxml.etree.ElementTreeimportXMLimportzipfile
psw="1234"WORD_NAMESPACE='{http://schemas.openxmlformats.org/wordprocessingml/2006/main}'PARA=WORD_NAMESPACE+'p'TEXT=WORD_NAMESPACE+'t'defget_docx_text(path):document=zipfile.ZipFile(path,"r")document.setpassword(psw)document.extractall()xml_content=document.read('word/document.xml')document.close()tree=XML(xml_content)paragraphs=[]forparagraphintree.getiterator(PARA):texts=[node.textfornodeinparagraph.getiterator(TEXT)ifnode.text]iftexts:paragraphs.append(''.join(texts))return'\n\n'.join(paragraphs)
使用受密码保护的文件运行get_docx_text()时,出现以下错误:
追溯(最近一次通话):
File"",line1,inrunfile('/Users/username/Workspace/Python/docx2txt.py',wdir='/Users/username/Workspace/Python')File"/Applications/Spyder-Py2.app/Contents/Resources/lib/python2.7/spyderlib/widge

本文介绍了尝试使用Python的zipfile模块读取受密码保护的Word文档时遇到的问题及解决方案。当尝试直接用zipfile打开加密文件时,会出现错误提示'BadZipfile: File is not a zip file'。解决方法是在调用如extractall、extract、open和read等方法时,传入密码参数,而非在ZipFile初始化时设置。同时,建议检查文件的其他属性,如所有权、权限和安全性上下文,确保文件正常。
最低0.47元/天 解锁文章
1684

被折叠的 条评论
为什么被折叠?



