Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析_爬虫电影(1)

最新推荐文章于 2025-04-23 11:34:26 发布

2301_81749759

最新推荐文章于 2025-04-23 11:34:26 发布

阅读量1.3k

点赞数 21

分类专栏：程序员文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/2301_81749759/article/details/137492631

版权

本文介绍了如何使用Python的XPath解析技术从豆瓣Top250电影页面抓取电影的中英文标题、导演、主演、上映年份、国籍、类型和评分。首先，详细讲解了如何通过XPath按层级定位并提取单部电影的数据，接着展示了如何获取一个页面中所有电影的信息。最后，通过循环遍历所有页面，收集所有电影数据，并将其存储到本地CSV文件中。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2.3.2 通过xpath方法按层级查找数据

定位好之后，我们就可以用etree对象的xpath方法解析xpath表达式，查找到相应的数据。

定位到电影的标题所在标签，右键复制它的xpath：

//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]

中文标题就在a标签下的第1个span标签中span[1]，然后我们通过/text()获取该标签中的文本信息。

# 获取中文电影标题
title_cn = data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]/text()')

而在a标签下的第二个span标签中包含的文本内容是电影的英文标题，所以我们只需要将span[1]改成span[2]就可以获取到电影的英文标题。

# 获取英文电影标题
title_en = data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[2]/text()')

在这里插入图片描述
接下来获取电影详情页的链接，链接就在a标签中，是a标签的属性href的属性值，我们复制a标签的xpath。

//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a

定位到a标签，要取其属性href的值需要在该路径后加上/@href 即可。

# 获取电影详情页链接
detail_link = data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/@href')

将这些信息打印看一下是否获取到正确信息：
我们已经获取到了第一部电影的中英文标题和详情页链接，它们都各自存放在一个列表中。
在这里插入图片描述

接下来我们可以用同样的方法获取电影的导演、主演、上映年份、国籍、类型和评分。

# 获取电影的导演和主演
people = data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[2]/p[1]/text()[1]')
# 获取电影的年份、国籍和类型
info = data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[2]/p[1]/text()[2]')
# 获取电影的评分
score = data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[2]/div/span[2]/text()')

打印数据：
在这里插入图片描述