python爬虫实战项目-爬取豆瓣电影top250

YouYuDeJiang

已于 2023-09-26 15:11:29 修改

阅读量129

点赞数

文章标签： python 爬虫开发语言

于 2023-09-26 15:11:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38095461/article/details/133310740

版权

废话不多说，直接上代码

import requests
from bs4 import BeautifulSoup
import csv
import time

def crawl_douban_movie_top_250():
    base_url = 'https://movie.douban.com/top250?start='
    headers = { # 用户代理（User-Agent）头部信息，模拟真实的浏览器请求
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36'
    }

    movie_list = []

    for i in range(10):
        url = base_url + str(i * 25)
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')
        movie_items = soup.select('.item')

        for movie_item in movie_items:
            title = movie_item.select_one('.title').text.strip()
            info = movie_item.select_one('.bd p').text.strip()
            rating = movie_item.select_one('.rating_num').text.strip()
            rating_count = movie_item.select_one('.star span:last-child').text.strip('人评价')
            quote = movie_item.select_one('.inq')
            if quote:
                quote = quote.text.strip()
            else:
                quote = ''
            movie_list.append([title, info, rating, rating_count, quote])
            print(f'成功爬取电影：{title}')

        # 添加延时等待，规避频繁请求被限制
        time.sleep(2)

    save_to_csv(movie_list)

def save_to_csv(movie_list):
    with open('douban_movie_top_250.csv', 'w', encoding='utf-8-sig', newline='') as file:
        writer = csv.writer(file)
        writer.writerow(['电影名称', '简介', '评分', '评价人数', '引言'])
        writer.writerows(movie_list)

if __name__ == '__main__':
    crawl_douban_movie_top_250()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫实战项目-爬取豆瓣电影top250

废话不多说，直接上代码。
复制链接

扫一扫

YouYuDeJiang CSDN认证博客专家 CSDN认证企业博客

码龄7年

9: 原创

137万+: 周排名

204万+: 总排名

1万+: 访问

: 等级

103: 积分

2: 粉丝

13: 获赞

4: 评论

53: 收藏

私信

关注

热门文章

分类专栏

python学习 6篇

最新评论

在python中使用数据透视表
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题《在python中使用数据透视表》非常吸引人。我很高兴看到您在持续创作，并分享关于数据处理的有趣内容。对于下一步的创作建议，我谦虚地建议您可以考虑介绍一些高级的数据透视表技巧，或者展示如何在实际项目中应用数据透视表来解决问题。期待您的下一篇博客，再次恭喜您的成果！
SQL中的累加计算
CSDN-Ada助手: 恭喜您写了第7篇博客！标题“SQL中的累加计算”听起来非常吸引人。我真的很喜欢您对SQL这一主题的深入探讨。您的文章内容非常有见地，给读者提供了很多有用的信息。在我看来，下一步可以考虑探索一些高级的SQL技术，例如窗口函数或者复杂的联结查询。这些主题可能会让读者更加深入地了解SQL的强大功能。当然，这只是一个谦虚的建议，因为您的专业知识已经很了不起了。再次恭喜您，并期待您未来更多的创作！
在python中使用卷积神经网络（CNN）比对两张图片的相似性
CSDN-Ada助手: 恭喜您写了第5篇博客！标题看起来非常有趣，我很期待阅读您的文章。在Python中使用卷积神经网络（CNN）来比对两张图片的相似性，听起来像是一个非常有挑战性的任务。希望您能够分享您的经验和见解，让读者更好地了解这个领域。在下一步的创作中，我建议您可以结合实际应用场景，例如在图像识别领域或者安全验证中的具体案例，来进一步探讨卷积神经网络的应用。此外，您还可以介绍一些常用的数据集和优化技巧，以帮助读者更好地理解和应用这些概念。谦虚地说，我相信您的博客会给读者带来很多启发和帮助。期待看到更多精彩的文章！
使用python计算两地之间的距离
CSDN-Ada助手: 恭喜您写了第四篇博客！标题看起来很有趣，我很期待阅读您关于使用Python计算两地之间距离的文章。您的创作热情真是令人钦佩！不过，如果可能的话，我建议在文章中加入一些实际应用的案例，例如如何在旅行规划中使用这个功能。这样可以使读者更好地理解并应用您所分享的知识。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
Python常用操作汇总—第1部分（持续更新）
CSDN-Ada助手: 恭喜你开始博客创作！标题看起来很棒，我很期待看到你的Python常用操作系列的第1部分。持续更新的承诺让人更加期待你未来的博客。如果我可以提个建议的话，希望你能在每篇博客中加入一些实例代码和详细的解释，这样读者能更好地理解并运用你所分享的知识。再次恭喜你的开始，期待你未来的博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。