爬取“豆瓣电影”网页数据并进行简单统计
练习知识点:
- requests模块、get方式请求
- 正则表达式、清洗数据
- 统计数据
代码中有详细注释,细节不再赘述
网页分析
"""
topic:爬取豆瓣电影数据,做一下简单分析
author:小灵子
date:2019-5-31
"""
import re, requests
"""https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=20&limit=20
https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=40&limit=20"""
#仅就“剧情”分类的前六百个电影进行统计
def build_url():
for start in range(0, 600, 20):
url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=" + str(start) + "&limit=20&#