xpath和正则如何匹配后代所有的内容

最新推荐文章于 2024-01-04 16:16:10 发布

天痕坤

最新推荐文章于 2024-01-04 16:16:10 发布

阅读量1.3k

点赞数

分类专栏： python 文章标签： xpath 正则 re

本文链接：https://blog.csdn.net/kun1280437633/article/details/80643451

版权

python 专栏收录该内容

57 篇文章 2 订阅

订阅专栏

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/80643451

demo：

import re
from lxml import etree
str1='''
<a style="font-weight: bold" par="ssidkey=y&amp;ss=201&amp;ff=03&amp;sg=61dddada6f3e4a62b688a786dac0a17f&amp;so=1" 
href="http://jobs.zhaopin.com/641207723250072.htm" target="_blank">销售<b>数据</b>专员</a>
'''
data = """
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html" class="aaaaa">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item<span>大家好</span>是吗</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
"""
# 方法一
dr = re.compile(r'<[^>]+>',re.S)
dd = dr.sub('',str1).strip()
# dd = re.sub(r'<[^>]+>','',str1).strip()
print(dd)

# 方法二
edata = etree.HTML(data)
dd = edata.xpath('//li[@class="item-1"]//text()')
print(dd)

edata2 = etree.HTML(str1)
dd = edata2.xpath('//a//text()')
for i in dd:
    print(i, end='')

结果：

销售数据专员
['second item', 'fourth item', '大家好', '是吗']
销售数据专员