Python爬虫简单统计网页数据

最新推荐文章于 2024-08-08 12:32:08 发布

小灵子2050

最新推荐文章于 2024-08-08 12:32:08 发布

阅读量2.4k

点赞数 2

分类专栏： Python requests re

本文链接：https://blog.csdn.net/qq_41332002/article/details/90726685

版权

本文通过Python的requests模块获取豆瓣电影网页数据，使用正则表达式进行数据清洗，接着对抓取的数据进行统计分析。代码注释详尽，适合初学者了解爬虫基础操作。

摘要由CSDN通过智能技术生成

爬取“豆瓣电影”网页数据并进行简单统计
练习知识点：

requests模块、get方式请求
正则表达式、清洗数据
统计数据

代码中有详细注释，细节不再赘述

在这里插入图片描述网页分析


"""
topic:爬取豆瓣电影数据，做一下简单分析
author:小灵子
date:2019-5-31
"""
import re, requests
"""https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=20&limit=20
      https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=40&limit=20"""
#仅就“剧情”分类的前六百个电影进行统计

def build_url():
    for start in range(0, 600, 20):
        url = "https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=" + str(start) + "&limit=20&#