（2024）豆瓣电影TOP250爬虫详细讲解和代码

最新推荐文章于 2025-03-25 11:35:22 发布

桃宝护卫队

最新推荐文章于 2025-03-25 11:35:22 发布

阅读量1.6k

点赞数 3

文章标签：爬虫 python 豆瓣电影

本文链接：https://blog.csdn.net/qq_36463299/article/details/139827857

版权

（2024）豆瓣电影TOP250爬虫详细讲解和代码

这是一个关于如何用Python爬取2024年豆瓣电影Top250的详细教程。教程涵盖了生成分页URL列表和解析页面以获取电影信息的函数。getAllPageUrl() 生成前10页的链接，而getMoiveListByUrl() 使用PyQuery解析HTML，提取电影标题、封面、评价数和评分。代码示例展示了测试这些函数的方法，输出包括电影详情的字典列表。

爬虫目的

获取 https://movie.douban.com/top250 电影列表的所有电影的属性。并存储起来。说起来很简单就两步。

第一步爬取数据
第二步存储

爬虫思路

总体流程图

由于是分页的，要先观察分页的规律，如下很容易知道每一页的规律。

第一页：https://movie.douban.com/top250?start=0&filter=
第二页：https://movie.douban.com/top250?start=25&filter=

代码思路

函数 getAllPageUrl ：生成分页链接列表
函数 getMoiveListByUrl ：根据某一页的分页链接，输出电影属性

函数：getAllPageUrl

def getAllPageUrl():
    """
    通过观察规律，生成所有分页的链接list
    :return:
    """
    list = []
    for i in range(10):
        url = f'https://movie.douban.com/top250?start={
     i*25}&filter='
        list