python中使用xpath爬取豆瓣电影剧情简介遇到不同标签的处理方法

python中使用xpath爬取豆瓣电影剧情简介遇到不同标签的处理方法

问题描述

在爬取豆瓣top250电影详细信息的时候,会遇到个别电影信息下的xpath标签不一样。
这里我举例为:top250电影的剧情简介
下面是两个不同情况的例子:
1.肖申克的救赎:
肖申克的救赎抓包页面

这里的xpath下的标签为.//*[@id="link-report"]/span[1]/span/text()[1]
2.霸王别姬:
霸王别姬抓包页面

这里的xpath下的标签.//*[@id="link-report"]/span[1]/text()[1]
那么在循环爬取剧情简介的时候,就会有出现部分电影的简介无法爬取的情况。

解决方法

通过在抓包工具下查找可以发现和肖申克的救赎的简介具有相同的xpath标签的电影,简介都存在于另一个位置.//*[@id="link-report"]//span[@class=all hidden]/text()[1]
那么我们可以通过一个判断Introduction = html.xpath('.//*[@id="link-report"]/span[2]/text()[1]')中的Introduction中的列表长度,如果为0,则执行Introduction = html.xpath('.//*[@id="link-report"]/span[1]/text()[1]')

具体代码

Introduction = html.xpath('.//*[@id="link-report"]/span[2]/text()[1]')
if len(Introduction) == 0:
	Introduction = html.xpath('.//*[@id="link-report"]/span[1]/text()[1]')

这是本人第一篇csdn,如有写的不好的地方或者有更好的方法,欢迎评论留言。

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小k同学!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值