Python docx module for Word or WPS processing
本文是通过docx把word中的表格中的某些已填好的内容提取出来,存入excel表格。
首先安装docx的python模块:
pip install python-docx
由于处理的为中文和符号,改成utf-8编码格式
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
from docx import Document
import pandas as pd
# 打开文件
doc = Document(ur"test_1.docx")
为了处理word中以对勾形式勾选的项目,采用下面 的方法
1、十字路口 √ 2、丁字路口 3、环形路口 4、人行立交
# 取出对号勾选的项目
print doc.tables[0].rows[3].cells[2].text
print doc.tables[0].rows[3].cells[2].text.split(u"√")[1].strip().split(" ")[0][2:]
"√" in doc.tables[0].rows[3].cells[2].text # 这个语句可以测试是否含有对勾,
# 有的话就取出对勾后面的item,否则直接返回填空的text
True
num_rows = len(doc.tables[0].rows)
print num_rows
xls = pd.read_csv(ur"output.csv")
print xls.columns[0]
diction