python中使用xpath爬取豆瓣电影剧情简介遇到不同标签的处理方法

最新推荐文章于 2024-04-15 16:44:18 发布

小k同学！

最新推荐文章于 2024-04-15 16:44:18 发布

阅读量1k

点赞数 3

分类专栏： python爬虫文章标签： python 爬虫 xpath

本文链接：https://blog.csdn.net/silent1cat/article/details/116075311

版权

python爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

python中使用xpath爬取豆瓣电影剧情简介遇到不同标签的处理方法

问题描述
解决方法
具体代码

问题描述

在爬取豆瓣top250电影详细信息的时候，会遇到个别电影信息下的xpath标签不一样。
这里我举例为：top250电影的剧情简介
下面是两个不同情况的例子：
1.肖申克的救赎：
肖申克的救赎抓包页面

这里的xpath下的标签为.//*[@id="link-report"]/span[1]/span/text()[1]
2.霸王别姬:
霸王别姬抓包页面

这里的xpath下的标签.//*[@id="link-report"]/span[1]/text()[1]
那么在循环爬取剧情简介的时候，就会有出现部分电影的简介无法爬取的情况。

解决方法

通过在抓包工具下查找可以发现和肖申克的救赎的简介具有相同的xpath标签的电影，简介都存在于另一个位置.//*[@id="link-report"]//span[@class=all hidden]/text()[1]。
那么我们可以通过一个判断Introduction = html.xpath('.//*[@id="link-report"]/span[2]/text()[1]')中的Introduction中的列表长度，如果为0，则执行Introduction = html.xpath('.//*[@id="link-report"]/span[1]/text()[1]')

具体代码

Introduction = html.xpath('.//*[@id="link-report"]/span[2]/text()[1]')
if len(Introduction) == 0:
	Introduction = html.xpath('.//*[@id="link-report"]/span[1]/text()[1]')

这是本人第一篇csdn，如有写的不好的地方或者有更好的方法，欢迎评论留言。

小k同学！

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
2
评论
python中使用xpath爬取豆瓣电影剧情简介遇到不同标签的处理方法

爬取豆瓣电影剧情简介遇到不同xpath路径的处理方法问题描述解决方法问题描述在爬取豆瓣top250电影详细信息的时候，会遇到个别电影信息下的xpath路径不一样。这里我举例为：top250电影的剧情简介下面是两个不同情况的例子：1.肖申克的救赎：这里的xpath下的路径为.//*[@id="link-report"]/span[1]/span/text()[1]2.霸王别姬:这里的xpath下的路径.//*[@id="link-report"]/span[1]/text()[1]那么在
复制链接

扫一扫