Python docx module for Word or WPS processing
本文是通过docx把word中的表格中的某些已填好的内容提取出来,存入excel表格。
首先安装docx的python模块:
pip install python-docx
由于处理的为中文和符号,改成utf-8编码格式
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
from docx import Document
import pandas as pd
# 打开文件
doc = Document(ur'test_1.docx')
为了处理word中以对勾形式勾选的项目,使用下面 的方法
1、十字路口 √ 2、丁字路口 3、环形路口 4、人行立交
# 取出对号勾选的项目
print doc.tables[0].rows[3].cells[2].text
print doc.tables[0].rows[3].cells[2].text.split(u'√')[1].strip().split(' ')[0][2:]
'√' in doc.tables[0].rows[3].cells[2].text # 这个语句可以测试是否含有对勾,
# 有的话就取出对勾后面的item,否则直接返回填空的text
True
num_rows = len(doc.tables[0].rows)
print num_rows
xls = pd.read_csv(ur'output.