如何识别Word文档中的复选框
前言
我在做将Word文档中数据汇总到Excel表格(小菜鸟的Python笔记001:将Word文档中数据汇总到Excel表格)的过程中遇到了一个问题,直接提取文档中的复选控件,是无法识别它有没有被选中。在网上找了好久都没有找到相应的解决方法,我苦思冥想了好久,终于想到了一个比较曲折的方法,如果有更好的方法,欢迎来和我交流!
一、程序思路及准备工作
程序思路:
我想,我用win32com库调用Word打开后直接提取无法识别,那Word是如何识别到它,然后把它显示出来的呢?后来我想到了,如果把它转为html,那浏览器是否能够识别呢?我试了一下,用浏览器打开它,能够正常显示,我再打开调试模式,找到复选框对应的标签,发现在html中已打勾的复选框表示的符号为"þ"或者"R",未选中的为”o“或者”··“。故我想到了以下方法:
1、将Word文档转为html格式
2、读入html文件
3、用Xpath提取对应标签信息
4、判断是否打勾
准备工作:
这里用到了lxml这个库中的etree函数,它可将html转为xpath可识别的xml
二、使用步骤
1.引入库
from lxml import etree
2.将Word文档转为html并读入
html_path="D:\T5.html"
do