Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析_爬虫电影(1)

本文介绍了如何使用Python的XPath解析技术从豆瓣Top250电影页面抓取电影的中英文标题、导演、主演、上映年份、国籍、类型和评分。首先,详细讲解了如何通过XPath按层级定位并提取单部电影的数据,接着展示了如何获取一个页面中所有电影的信息。最后,通过循环遍历所有页面,收集所有电影数据,并将其存储到本地CSV文件中。
摘要由CSDN通过智能技术生成
2.3.2 通过xpath方法按层级查找数据

定位好之后,我们就可以用etree对象的xpath方法解析xpath表达式,查找到相应的数据。

定位到电影的标题所在标签,右键复制它的xpath:

//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]

中文标题就在a标签下的第1个span标签中span[1],然后我们通过/text()获取该标签中的文本信息。

# 获取中文电影标题
title_cn = data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]/text()')

而在a标签下的第二个span标签中包含的文本内容是电影的英文标题,所以我们只需要将span[1]改成span[2]就可以获取到电影的英文标题。

# 获取英文电影标题
title_en = data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[2]/text()')

在这里插入图片描述
接下来获取电影详情页的链接,链接就在a标签中,是a标签的属性href的属性值,我们复制a标签的xpath。

//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a

定位到a标签,要取其属性href的值需要在该路径后加上/@href 即可。

# 获取电影详情页链接
detail_link = data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/@href')

将这些信息打印看一下是否获取到正确信息:
我们已经获取到了第一部电影的中英文标题和详情页链接,它们都各自存放在一个列表中。
在这里插入图片描述

接下来我们可以用同样的方法获取电影的导演、主演、上映年份、国籍、类型和评分。

# 获取电影的导演和主演
people = data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[2]/p[1]/text()[1]')
# 获取电影的年份、国籍和类型
info = data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[2]/p[1]/text()[2]')
# 获取电影的评分
score = data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[2]/div/span[2]/text()')

打印数据:
在这里插入图片描述

  • 21
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值