Python | 爬虫抓取豆瓣音乐剧作品

最新推荐文章于 2021-08-18 10:09:25 发布

madaokuma

最新推荐文章于 2021-08-18 10:09:25 发布

阅读量482

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/madaokuma/article/details/81544374

版权

通过Python爬虫获取豆瓣音乐剧标签下的作品，包括标题、别名、上映日期和评分等信息，遇到没有数据的情况进行了条件判断处理。爬取的数据按评分排序，但发现标签覆盖不全，如舞台剧未包含在内。

摘要由CSDN通过智能技术生成

前段时间看了《跳出我天地音乐剧》，这是第一次接触音乐剧整个爱上了，后来又看了《摇滚莫扎特》、《歌剧魅影》，还刷了现场的《猫》，都特别喜欢，于是想爬下豆瓣音乐剧的内容，给自己一个刷剧列表。

代码是参照下面这个教程改写的（谢谢原作者带我入门！），这里爬取的是豆瓣音乐剧标签下的所有作品，用的xpath。
Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

首先导入包

from lxml import etree
import requests
import time
import re

把爬取结果都放到data里，实不相瞒这是第一次写for循环，写得很挫。。
后来想了下可以不用都存下来，爬一个存一个应该会更节省空间。

data=''
for a in range(7):
    url = 'https://movie.douban.com/tag/音乐剧?start={}'.format(a*20)
    data0 = requests.get(url).text
    data=data+data0

    s=etree.HTML(data)
    file=s.xpath('//*[@id="content&#

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

madaokuma

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

利用python爬取豆瓣音乐TOP250

zzpdbk的博客

12-10

5127

最近无所事事，在逼乎看到别人爬取了豆瓣音乐，发现挺适合我这菜鸡练练手 #对不起豆瓣，又是爬你。。目标网站：https://music.douban.com/top250?start=0 首先正常浏览分析网页打开网址，点击下一页，发现网站URL变成 https://music.douban.com/top250?start=25，所以可以判断接下来每一页的URL为 star=25*i。

Python爬虫之旅之豆瓣音乐

weixin_33769207的博客

01-28

281

前言 Python是一门计算机程序语言，目前人工智能科学领域应用广泛，应用广泛就表明各种库，各种相关联的框架都是以Python作为主要语言开发出来的。谷歌的TensorFlow大部分代码都是Python Python虽然是脚本语言，但是因为容易学，迅速成为科学家的工具，从而积累了大量的工具库、架构，人工智能涉及大量的数据计算，用Python是很自然的，简单高效。 Python有非常多优秀的深度...

1 条评论您还未登录，请先登录后发表或查看评论

[python爬虫]--爬取豆瓣音乐topX

saya_wj

06-15

1292

最近在学习python爬虫，写出来的一些爬虫记录在csdn博客里，同时备份一个放在了github上。本次内容：从豆瓣的top250音乐界面爬取指定的topX专辑。

Python爬虫实战之豆瓣音乐、微打赏、阳光电影（附代码）

Python中文社区

01-10

1501

一、豆瓣音乐今天爬的是豆瓣音乐top250，比较简单，主要是练练手。1、加了请求头，本来没加，调试几次突然没数据了，加了请求头开始也没好，后来又好了，可能是网络原因； 2、这次是进入信息页爬的数据，上次爬电影没采用这种方法，缺少了部分数据； 3、数据的预处理用了很多if函数数据分析1、部分数据可以见上图 2、中国音乐作者还是很多的。 3、随着音乐设备和网络的普及，流行音乐的发展，可以看出2000年

利用python爬取豆瓣音乐_Python爬虫小白入门（七）爬取豆瓣音乐top250

weixin_39772352的博客

12-05

711

抓取目标：豆瓣音乐top250的歌名、作者(专辑)、评分和歌曲链接使用工具：requests + lxml + xpath。我认为这种工具组合是最适合初学者的，requests比python自带的urllib库好用，功能更强大。关于requests的使用方法，建议看它的官方文档：使用lxml来解析网页，速度是最快的，至少比BeatifulSoup快。关于lxml的使用方法，建议看这个：而xpath...

利用python爬取豆瓣音乐_python爬虫之豆瓣音乐top250

weixin_39915694的博客

02-05

717

回家很久了，实在熬不住，想起来爬点数据玩一玩，之前自己笔记本是win7加ubuntu16.04双系统，本打算在ubuntu里写代码的，可是回到家ubuntu打开一直是紫屏，百度知乎方法用了也没解决，厉害的兄弟可以教下我哦，过年有红包哦！！然后就还是在win7下开始写代码了(电脑太卡，一直不想装Python)，今天爬的是豆瓣音乐top250，比较简单，主要是练练手。代码importrequests...

Python爬取豆瓣+数据可视化

qq_44717614的博客

08-18

5225

博客原文和源码下载：Python爬取豆瓣+数据可视化前言前段时间应我姐邀请，看了一下Python爬虫。不得不说Python的语法确实简洁优美，可读性强，比较接近自然语言，非常适合编程的初学者上手。在开始之前还是先介绍下什么是爬虫：网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。 – 维基百科爬虫是一种程序或者脚本，用来替代人工浏览网页并从中提取信息，通常将提取的信息存储然后对其进行分析，从而获取有价值的信息。爬虫也不是什么新鲜事

python 爬虫实战六：用 selenium 爬取豆瓣电影

weixin_43084570的博客

12-20

6980

今天帮朋友爬取豆瓣电影的数据，以便进行社交网络分析。首先打开豆瓣电影，然后点击分类，选择要爬取的特定电影这里以国产喜剧片为例：依次点击电影、喜剧、中国大陆然后点击一个小的列表按键找到我们要爬取的数据下拉到最底部，有一个加载更多点击会出现新的电影数据。说明这是一个动态网站，需要使用selenium来爬取。 selenium 是一个非常简单方便的库，用来模拟人进行上述操作。但是需要提前安装好这个库，而且需要安装火狐或者Chrome浏览器的geckodriver，具体的细节可以阅读官

python爬虫知网实例-python爬取知网

weixin_37988176的博客

10-30

7561

Python使用Beautiful Soup爬取豆瓣音乐排行榜过程解析

09-18

主要介绍了Python使用Beautiful Soup爬取网页过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

利用python爬取豆瓣音乐TOP250的数据----爬取的247首歌曲的网址

08-23

需要说明的是，豆瓣页面上第4、5、6页只有24首（不是25首），所以总数量是247，不是250。不是爬虫代码有问题，是豆瓣页面上就只有247条数据。通过函数get_music_info()可以获取所有的网页，通过写入TXT文本文档中，可以直观看到有多少内容。

python爬虫

qq_53183608的博客

07-22

6360

爬虫通过编写程序来获取互联网上的资源 web请求过程解析 1.服务器渲染:在服务器那边直接把数据和HTML整合在一起,统一返回给浏览器特点:在页面源代码中能看到数据 2.客户端渲染:第一次请求只要一个HTMl骨架,第二次请求拿到数据,进行数据展示. 特点:在页面源代码中看不到数据(数据在第二次请求中) 所以在看不到数据的时候不要慌,再往下找找 HTTP协议协议:就是两个计算机之间为了能够流畅的进行沟通而设置的一个君子协议.常见的协议有TCP/IP,SOAP协议,HTTP协议,SMTP协议等等 HTTP

python爬虫requests实战_Python爬虫实战(3)-爬取豆瓣音乐Top250数据(超详细)

weixin_39630498的博客

11-23

671

点击标题下「蓝色微信名」可快速关注前言首先我们先来回忆一下上两篇爬虫实战文章：第一篇：讲到了requests和bs4和一些网页基本操作。第二篇：用到了正则表达式-re模块今天我们用lxml库和xpath语法来爬虫实战。1.安装lxml库window：直接用pip去安装，注意一定要找到pip的安装路径Javapip install lxml1pipinstalllxml2.xpath语法xpath语...

Python爬虫如何实用xpath爬取豆瓣音乐

人生苦短，还不用Python？

05-16

830

前言爬虫的抓取方式有好几种，正则表达式，Lxml(xpath)与BeautifulSoup,我在网上查了一下资料，了解到三者之间的使用难度与性能。三种爬虫方式的对比今天咱们主要是讲的xpath爬取数据 xpath简单用法 from lxml import etree s=etree.HTML(源码) #将源码转化为能被XPath匹配的格式 s.xpath(xpath表达式) #返回为一列表, 基础语法： // 双斜杠定位根节点，会对全文进行扫描，在文档中选取所有符合条件的内容，以列表的形式

很简单的一个爬取豆瓣音乐前250的一些信息。

qiushuidongshi的博客

08-02

455

from lxml import etree import requests #获取页面地址 def getUrl(): for i in range(10): url = 'https://music.douban.com/top250?start={}'.format(i*25) scrapyPage(url) #爬取每页数据 def scrapyPage(u...

利用python爬取豆瓣音乐_Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)

weixin_28994767的博客

02-05

726

1. 爬虫设计的技术1)数据获取，通过http获取网站的数据，如urllib,urllib2,requests等模块；2)数据提取，将web站点所获取的数据进行处理，获取所需要的数据，常使用的技术有：正则re，BeautifulSoup,xpath；3)数据存储，将获取的数据有效的存储，常见的存储方式包括：文件file，csv文件，Excel，MongoDB数据库，MySQL数据库2. 环境信息...

Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)

02-18

630

Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1) 1. 爬虫设计的技术　　1）数据获取，通过http获取网站的数据，如urllib,urllib2,requests等模块；　　2）数据提取，将web站点所获取的数据进行处理，获取所需要的数据，常使用的技术有：正则re，BeautifulSoup,xpath；　　3）数据存储，将获取的数据有效的存储，常见的存...

scrapy实战之与豆瓣反爬抗争

Fourierrr_的博客

04-07

7606

前言scrapy是优秀的Python爬虫框架，最近在使用scrapy爬取豆瓣音乐信息时，着实被其反爬机制搞了一下。虽然豆瓣提供了各种API可以供我们提取信息，但是我就是要用爬虫爬你练手。正文常见的反爬机制有如下几种：1.请求头检查，比如cookies，user-agent，refer，甚至Accept-Language等等，这也是最基本的反爬机制。2.访问频次检查，如果一个ip在短时间内访问次服务...

python爬虫抓取豆瓣影评