第一次写博客,也不知道要写点儿什么好,所以就把我在学习Python的过程中遇到的问题记录下来,以便之后查看,本人小白,写的不好,如有错误,还请大家批评指正!
中文编码问题总是让人头疼,想要用Python读取word中的内容,用open()经常报错,上网一搜结果发现了Python有专门读取.docx的模块python_docx(只能读取.docx文件,不能读取.doc文件),用起来很方便。
安装python-docx:
pip install python_docx
(注意:不是pip install docx ! docx也可以安装,但总是报错,缺少exceptions,无法导入)
接下来就可以用Python_docx 来读取word文本了。
代码如下:
importdocxfrom docx importDocument
path= "C:\\Users\\Administrator\\Desktop\\word.docx"document=Document(path)for paragraph indocument.paragraphs:print(paragraph.text)
运行即可输出文本。
我尝试用docx读取.doc文本
代码如下:
importosimportdocxfor filename inos.listdir(os.getcwd()):if filename.endswith('.doc'):print(filename[:-4])
doc= docx.Document(filename[:-4]+&#