python静态网页爬虫之xpath

常用语句:

1.starts-with(@属性名称,属性字符相同部分)使用情形: 以相同的字符开头

<div id = 'test-1'>需要的内容1</div>

<div id = 'test-2'>需要的内容2</div>

<div id = 'test-3'>需要的内容3</div>

selector = etree.HTML(html)
content = selector.xpath('//div[start-with(@id,'test')]/text()')

  

2.string(.) 使用情形:标签套标签

<div id='class3'>美女,

  <font color=red>你微信号是多少?</font>

</div>

selector = etree.HTML(html)
data = selector.xpath('//div[@id='test3']')[0]   #先大后小
info = data.xpath('string(.)')
content = info.replace('\n','').replace('  ','')  #替换换行符和tab

  

转载于:https://www.cnblogs.com/alan-babyblog/p/5506968.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值