目标是爬取2000年到2016年的电影,并进行数据分析。
本文适合新手
下面以2016年的电影为例:
进入网页
按Fn+F12,我们就能看到:
通过正则表达式解析获取数据:
pattern = re.compile('
+ '.*?
.*?class="pl">(.*?)', re.S)items = re.findall(pattern, html)
实现循环翻页
def main(start):
url = 'https://movie.douban.com/tag/2007?start='+str(start)+'&type=T'
html =