介绍
舍友从网上下载的word题库文档很乱,手动改了大半天才改了一点,想起python是大名鼎鼎的自动化脚本,于是乎开始了python对word的一顿瞎操作。
分析需求
对文档中的内容进行分析,只留下题目,选项,并且题号要从1开始。
编写代码
pip安装python-docx模块
读取word文档内容(如果是以.doc后缀的文件需另存为.docx文件!)
from docx import Document
# 打开文件
srcdocx = Document(‘src.docx‘)
# 遍历所有段落
for p in srcdocx.paragraphs:
print(p.text)
输出效果:
分析所需要删除的内容:
需求1:
1
42.对餐后血糖显著升高的2型糖尿病者,可选用下列哪种药物(5.0分)
删除多余数字行
需求2:
42&#x