python xpath获取多个li标签内容是空?还得结合正则表达式来爬取信息

在使用Python的Scrapy和Selector尝试通过XPath抓取网站li标签中的title内容时,遇到列表为空的问题。发现title内容实际与a标签文本相同,但直接获取仍为空。通过查看网页源代码,发现内容以键的形式存储,最终利用正则表达式成功获取。此外,还探讨了XPath在HTML解析中的应用和调试方法。
摘要由CSDN通过智能技术生成

python问题: xpath获取多个li标签内容是空的?

  • from scrapy.selector import Selector

想通过Selector爬取网站信息,同时保存多个li标签中的title标签值,总是得到空的列表。
网页代码

names = sel.xpath('//*[@class="list-box"]/li/a/@title')

因为title标签内容和a标签文本内容一致,想获取文本,结果也为空列表。

name=sel.xpath('//div/ul[@class="list-box"]//li//a//text()').extract()

尝试过多种格式,均无果。
发现只有以下代码可得到一些信息,但不能用:

names = sel.xpath('//*[@class="list-box"]/li').extract()

运行结果
另外,通过增加etree.HTML语句进行获取

content=etree.HTML(sel).xpath('.//ul [@class="list-box"]//li')
for i in content:
	print(
  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值