中职-大数据应用与服务（豆瓣电影）

三余无梦丶

已于 2024-01-12 23:41:25 修改

阅读量694

点赞数 13

分类专栏：中职大数据文章标签： python

于 2024-01-12 23:01:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lyx616694209/article/details/135563432

版权

中职大数据专栏收录该内容

3 篇文章 1 订阅

订阅专栏

任务A：数据采集与处理

环境说明：

操作系统：windows 10

IDE：PyCharm Community-2023.2

软件：Python 3.11.4

库包：Scrapy==2.10.1,lxml==4.9.3

子任务一：数据采集

网站解析，利用Chrome查看网页源码，分析豆瓣电影 Top 250（https://movie.douban.com/top250）网页结构。

1）打开豆瓣电影 Top 250网站，在网页中右键点击检查，或者F12快捷键，查看元素页面；

2）检查网站：浏览网站源码查看所需内容。

从豆瓣电影 Top 250网站中爬取需要数据，按照要求使用Python语言编写爬虫代码，爬取指定数据项，并对结果数据集进行数据探索、以及必要的数据处理操作。请将符合题目要求的代码答案复制粘贴至对应报告中。

具体步骤如下：

1）使用Scrapy框架创建爬虫项目

2）构建爬虫请求

3）按要求定义相关字段

4）获取有效数据

5）将爬取到的数据保存到指定位置

至此已从豆瓣电影 Top 250网站中爬取了所需数据，下一步我们要将爬取结果进一步进行相关数据操作。具体要求如下:

爬取电影列表数据:排名、标题、封面、是否可播放、导演、主演、发行日期、国家地区、类型、评分、评价人数并且存入到movie.csv文件中。

子任务二：数据处理

现已从相关网站及平台获取到原始数据集，为保障用户隐私和行业敏感信息，已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况、不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号等个人信息都需要进行数据脱敏。

相关数据文件中已经包含了数据采集阶段从豆瓣电影 Top 250网站上爬取的数据集，你的小组需要通过编写代码或脚本完成对相关数据文件中电影数据的清洗和整理。

请使用pandas库加载并分析相关数据集，根据题目规定要求使用pandas库实现数据处理，具体要求如下：

删除movie2.csv中删除可观看字段(is_playable)为false的数据并且存入movie2_c1_N.csv,N为删除的数据条数；
删除movie2.csv中删除数据源中删除演员数(actor_count)大于30的数据记录并且存入movie2_c2_N.csv,N为删除对应记录后剩余的数据条数；
将movie2.csv中国家和地区（regions）字段为多个国家和地区，将其设为该字段的第一个国家或地区值并且存入movie2_c3.csv；

将movie2.csv中观看数量（vote_count）统一设置为平均观看数(取整)并且存入movie2_c4_N.csv，N为平均观看数。

三余无梦丶

关注

13
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
中职-大数据应用与服务（豆瓣电影）

在涉及客户安全数据或者一些商业性敏感数据的情况、不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号等个人信息都需要进行数据脱敏。从豆瓣电影 Top 250网站中爬取需要数据，按照要求使用Python语言编写爬虫代码，爬取指定数据项，并对结果数据集进行数据探索、以及必要的数据处理操作。爬取电影列表数据:排名、标题、封面、是否可播放、导演、主演、发行日期、国家地区、类型、评分、评价人数并且存入到movie.csv文件中。库包：Scrapy==2.10.1,lxml==4.9.3。
复制链接

扫一扫

专栏目录

三余无梦丶 CSDN认证博客专家 CSDN认证企业博客

码龄12年

4: 原创

155万+: 周排名

19万+: 总排名

2169: 访问

: 等级

75: 积分

35: 粉丝

35: 获赞

1: 评论

41: 收藏

私信

关注

热门文章

分类专栏

中职大数据 3篇

最新评论

BUUCTF(basic)-wireshark
CSDN-Ada助手: 恭喜您撰写第四篇博客！标题为“BUUCTF(basic)-wireshark”，我非常喜欢您选择了这个主题。您的博客内容清晰易懂，对wireshark这一工具的介绍和应用场景进行了详细阐述，使我对其有了更深入的理解。感谢您的分享！在下一篇博客中，我建议您可以进一步探索wireshark的高级用法或者分享一些与网络安全相关的实际案例。这样能够帮助读者深入了解wireshark的更多功能和应用场景，同时也能够提供一些实用的技巧和经验。期待您的下一篇作品！再次感谢您的辛勤创作！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
中职-大数据应用与服务（豆瓣音乐）
CSDN-Ada助手: 恭喜你开始博客创作！你选择的主题“中职-大数据应用与服务（豆瓣音乐）”听起来非常有趣。大数据在音乐领域的应用一直备受关注，我期待在你的博客中了解更多关于如何利用大数据来提供更好的豆瓣音乐服务的内容。同时，我建议你在下一步的创作中可以深入探讨豆瓣音乐如何通过大数据分析用户喜好，为用户推荐更符合他们口味的音乐。希望你能在博客中分享更多关于大数据在音乐领域的应用案例和相关技术。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
中职-大数据应用与服务（豆瓣图书）
CSDN-Ada助手: 非常棒的博客！很高兴看到你通过Python语言编写爬虫代码，成功地从豆瓣图书网站上爬取了所需的数据，并进行了数据探索和处理操作。你的努力和技能展示了你对大数据应用与服务的熟练掌握。除了你在博文中提到的内容，还有一些扩展知识和技能可以进一步深入学习和应用。例如，可以学习数据可视化的技巧，使用Python中的数据可视化库（如Matplotlib或Seaborn）将爬取到的数据进行可视化，以便更好地理解和呈现数据集的特征和趋势。此外，你还可以学习更高级的数据处理技术，例如使用Pandas库进行数据清洗和整理。Pandas提供了丰富的功能和方法，可以更方便地处理和分析大型数据集。同时，你可以探索机器学习和数据挖掘算法，进一步挖掘和分析爬取到的数据集，从中发现更有价值的信息和模式。希望你能继续保持创作，并不断拓展自己的知识和技能。期待看到更多关于大数据应用与服务的精彩博文！谦虚和持续学习是我们成长的重要品质。加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
中职-大数据应用与服务（豆瓣电影）
CSDN-Ada助手: 恭喜您撰写了关于中职-大数据应用与服务的第三篇博客，内容涉及豆瓣电影，非常有趣！希望您能继续保持创作的热情，并且在下一篇博客中，可以深入探讨一些实际案例或者数据分析技巧，让读者能够更加深入地了解大数据应用与服务的实际操作和应用。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。