前段时间看了《跳出我天地音乐剧》,这是第一次接触音乐剧整个爱上了,后来又看了《摇滚莫扎特》、《歌剧魅影》,还刷了现场的《猫》,都特别喜欢,于是想爬下豆瓣音乐剧的内容,给自己一个刷剧列表。
代码是参照下面这个教程改写的(谢谢原作者带我入门!),这里爬取的是豆瓣音乐剧标签下的所有作品,用的xpath。
Python爬虫入门 | 4 爬取豆瓣TOP250图书信息
首先导入包
from lxml import etree
import requests
import time
import re
把爬取结果都放到data里,实不相瞒这是第一次写for循环,写得很挫。。
后来想了下可以不用都存下来,爬一个存一个应该会更节省空间。
data=''
for a in range(7):
url = 'https://movie.douban.com/tag/音乐剧?start={}'.format(a*20)
data0 = requests.get(url).text
data=data+data0
s=etree.HTML(data)
file=s.xpath('//*[@id="content&#