现学活用的XPath爬取豆瓣音乐

最新推荐文章于 2024-04-13 01:33:41 发布

python学日志

最新推荐文章于 2024-04-13 01:33:41 发布

阅读量563

点赞数 1

分类专栏： Python 爬虫文章标签：爬虫项目

本文链接：https://blog.csdn.net/stromrunning/article/details/95030308

版权

本文通过实战项目，演示如何使用XPath爬取豆瓣音乐的标题、评分、评价人数、链接和图片地址。从获取单条信息到多条，再到多页面数据，逐步解析XPath在爬虫中的应用。

摘要由CSDN通过智能技术生成

前两篇主要给大家介绍了的xpath的基础知识，以及的xpath的常用操作，按照计划，今天是的xpath的最后一篇文章，给大家介绍一个用的xpath爬取豆瓣音乐的实战项目。学以致用，方能让我们快速掌握XPath的语法功能。

爬取目标

本次我们需要爬取豆瓣音乐前250条，打开豆瓣音乐：https ：//music.douban.com/top250 。

爬取的内容有：

音乐标题
音乐评分与评价人数
音乐链接
图片地址

下面就让我们根据任务要求，一步一步的来编写代码，最后再将代码整合，实现功能。

1.获取音乐标题

打开网址，按下F12，然后查找标题，右键弹出菜单栏复制==>复制Xpath

这里就是我们想获取音乐标题的的xpath：// * [@ ID = “内容”] / DIV / DIV [1] / DIV /表[1] / tbody的/ TR / TD [2] / DIV /一个，具体实现爬取音乐标题的代码如下：

from lxml import etree
import requests

url = 'https://music.douban.com/top250'

html = requests.get(url).text   
s = etree.HTML(html)
title = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div/a')
print(title)

运行代码，结果居然是空的。这是为什么呢？

这里需要注意，浏览器复制的的xpath只能作参考，浏览器经常会在自己里面增加多余的TBODY标签，我们需要手动把这个标签（/ TBODY）删掉，然后再运行代码，结果如下：

[<Element a at 0x34f2348>, <Element a at 0x34f2308>]

此时，说明标题被获取到了，因为要获取标题文本，所以的xpath表达式要追加/文本（），此外，这个s.path返回的是一个集合，且集合中只有一个元素所以我再追加一个[ 0]，新的表达式为

title = s.xpath('//[@id="content"]/div/div[1]/div/table/tr/td[2]/div/a/text()')[0]

再次运行代码得到结果：

我们唱歌。我们跳舞。我们偷东西。

正是我们想要的标题。

2.获取音乐评分与评价人数

和1中获取xpath的方法一样，此时的xpath为：// * [@ id =“content”] / div / div [1] / div / table [1] / tr / td [2] / div / DIV /跨度[3] /文本（）具体代码如下：

from lxml import etree
import requests

url = 'https://music.douban.com/top250'

html = requests.get(url).text
s = etree.HTML(html)
title = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/a/text()')[0]
score = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[2]/text()')[0]
numbers = s.xpath('//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div/div/span[3]/text()')[0]
print(title,score,numbers)<

最低0.47元/天解锁文章

python学日志

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
现学活用的XPath爬取豆瓣音乐

前两篇主要给大家介绍了的xpath的基础知识，以及的xpath的常用操作，按照计划，今天是的xpath的最后一篇文章，给大家介绍一个用的xpath爬取豆瓣音乐的实战项目。学以致用，方能让我们快速掌握XPath的语法功能。爬取目标本次我们需要爬取豆瓣音乐前250条，打开豆瓣音乐：https：//music.douban.com/top250。爬取的内容有：音...
复制链接

扫一扫

专栏目录