python 使用Python-docx读取word文档报错:There is no item named ‘word/NULL‘ in the archive
问题分析:应该是有某些object该库无法识别
解决方法:
1.参考https://blog.csdn.net/weixin_42521211/article/details/106428503,将docx形式的数据转为二进制格式进行处理;
2.启发式方法:对docx文档进行反复二分删除处理,每一次二分之后看对剩余文本运行程序是否会报错,并据此进行排查。例如把文章分为A和B两部分,删除A,对B运行程序,若不报错,说明问题出在A中,否则问题出在B中。然后再针对出问题的A或B做进一步切分、删除、运行处理。
希望能帮到你!