「第二章」python-docx 中超链接的读取、修改、删除
前言
今天我们需要通过 python-docx 完整的操作包括:超链接的读取、插入、更新、删除。
一、文档超链接操作实例
1、读取文档中所有的超链接
(1)通过 python-docx 实现超链接的读取
这里我们需要使用到 docx.part.rels 这个属性,后面我对这个进行仔细讲解吧。这里需要注意的是,虽然可以读出所有的超链接,但是会存在很多干扰项,它会把和文档有关联的所有链接都取出来。比如我处理的文档,取出来了如下干扰项,我们只需要自己过滤一下就可以了:
关于过滤干扰项,可以提供几个思路,当然也不止这么几种思路:
1、判断返回的连接中是否包括http或https字样,如果包含的话就是我们要的超链接。
2、判断返回的文本中是否包含xml或其它非网页链接字样,如果包括则排除。
'theme/theme1.xml',
'webSet