xpath和正则如何匹配后代所有的内容

 

  • 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/80643451

demo:

import re
from lxml import etree
str1='''
<a style="font-weight: bold" par="ssidkey=y&amp;ss=201&amp;ff=03&amp;sg=61dddada6f3e4a62b688a786dac0a17f&amp;so=1" 
href="http://jobs.zhaopin.com/641207723250072.htm" target="_blank">销售<b>数据</b>专员</a>
'''
data = """
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html" class="aaaaa">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item<span>大家好</span>是吗</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a>
     </ul>
 </div>
"""
# 方法一
dr = re.compile(r'<[^>]+>',re.S)
dd = dr.sub('',str1).strip()
# dd = re.sub(r'<[^>]+>','',str1).strip()
print(dd)

# 方法二
edata = etree.HTML(data)
dd = edata.xpath('//li[@class="item-1"]//text()')
print(dd)

edata2 = etree.HTML(str1)
dd = edata2.xpath('//a//text()')
for i in dd:
    print(i, end='')

结果:

销售数据专员
['second item', 'fourth item', '大家好', '是吗']
销售数据专员

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值