小菜鸟的Python笔记002:如何识别Word文档中的复选框


前言

我在做将Word文档中数据汇总到Excel表格(小菜鸟的Python笔记001:将Word文档中数据汇总到Excel表格)的过程中遇到了一个问题,直接提取文档中的复选控件,是无法识别它有没有被选中。在网上找了好久都没有找到相应的解决方法,我苦思冥想了好久,终于想到了一个比较曲折的方法,如果有更好的方法,欢迎来和我交流!

一、程序思路及准备工作

程序思路:

我想,我用win32com库调用Word打开后直接提取无法识别,那Word是如何识别到它,然后把它显示出来的呢?后来我想到了,如果把它转为html,那浏览器是否能够识别呢?我试了一下,用浏览器打开它,能够正常显示,我再打开调试模式,找到复选框对应的标签,发现在html中已打勾的复选框表示的符号为"þ"或者"R",未选中的为”o“或者”··“。故我想到了以下方法:
1、将Word文档转为html格式
2、读入html文件
3、用Xpath提取对应标签信息
4、判断是否打勾

准备工作:

这里用到了lxml这个库中的etree函数,它可将html转为xpath可识别的xml

二、使用步骤

1.引入库

from lxml import etree

2.将Word文档转为html并读入

html_path="D:\T5.html"
do
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值