python3.6爬虫案例：爬取百度歌单。

最新推荐文章于 2024-08-16 11:38:09 发布

青衫故人旧33

最新推荐文章于 2024-08-16 11:38:09 发布

阅读量2.2k

点赞数 3

分类专栏： python爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jishun_wang/article/details/79471753

版权

一、写在前面。

由于先前实验室学术研究的需要，自己开始学习python爬虫技术。学习的过程中写了几个爬虫的案例，分别有：百度音乐歌单爬取，百思不得姐视频爬取、潮秀网图片爬取（里面尺度有点大，学习乐趣也不少^_^）、顶点小说爬取、历史天气爬取等。接下来就按照顺序一一贴出来和大家一起分享，希望对学习爬虫的朋友有所益处，也欢迎大家一起学习交流。

这次我们先聊聊爬取百度音乐歌单，网址链接为：http://music.baidu.com/tag。我们打开看看长什么样^_^。

我们把这些歌单按照标签分类爬取：标签（热门、心情等）可以创建文件夹，歌单创建txt文件名，txt文本内放歌曲信息（序号、歌名、歌手等）。

在开始之前我先和大家说下本次小项目使用了哪些模块：requests、BeautifulSoup、os等模块。requests模块用于请求网页；BeautifulSoup用于解析网页、os模块用于创建文件夹。说到这我们可以开始进入正题啦。

二、爬取步骤说明。

思路：我们首先爬取标签以及标签下歌单的链接；然后据此爬取所有歌单下的歌曲信息。

1.爬取标签及歌单链接。

点击网页右键的检查（大多浏览器均支持）查看网页源代码可以发现：所有的歌曲标签在网页标签<d1>类名为“tag-items clearfix”下（用BeautifulSoup定位时注意处理方式，有点小特别，一般名称中间没有空格，这个有空格，待会看代码留意下）。而歌单名称及其链接在<span>，类名为“tag-list clearfix”下。如下图所示：

找到了所需信息的位置，我们就可以写代码啦！文件为：CrawlSongTag.py。

import requests
from bs4 import BeautifulSoup


#获取网页信息
def get_html(url)

最低0.47元/天解锁文章

青衫故人旧33

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。