Python | 爬虫抓取豆瓣音乐剧作品

通过Python爬虫获取豆瓣音乐剧标签下的作品,包括标题、别名、上映日期和评分等信息,遇到没有数据的情况进行了条件判断处理。爬取的数据按评分排序,但发现标签覆盖不全,如舞台剧未包含在内。
摘要由CSDN通过智能技术生成

前段时间看了《跳出我天地音乐剧》,这是第一次接触音乐剧整个爱上了,后来又看了《摇滚莫扎特》、《歌剧魅影》,还刷了现场的《猫》,都特别喜欢,于是想爬下豆瓣音乐剧的内容,给自己一个刷剧列表。

代码是参照下面这个教程改写的(谢谢原作者带我入门!),这里爬取的是豆瓣音乐剧标签下的所有作品,用的xpath。
Python爬虫入门 | 4 爬取豆瓣TOP250图书信息

首先导入包

from lxml import etree
import requests
import time
import re

把爬取结果都放到data里,实不相瞒这是第一次写for循环,写得很挫。。
后来想了下可以不用都存下来,爬一个存一个应该会更节省空间。

data=''
for a in range(7):
    url = 'https://movie.douban.com/tag/音乐剧?start={}'.format(a*20)
    data0 = requests.get(url).text
    data=data+data0

    s=etree.HTML(data)
    file=s.xpath('//*[@id="content&#
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值