任务A:数据采集与处理
环境说明:
操作系统:windows 10 IDE:PyCharm Community-2023.2 软件:Python 3.11.4 库包:Scrapy==2.10.1,lxml==4.9.3 |
子任务一:数据采集
网站解析,利用Chrome查看网页源码,分析豆瓣电影 Top 250(https://movie.douban.com/top250)网页结构。
1)打开豆瓣电影 Top 250网站,在网页中右键点击检查,或者F12快捷键,查看元素页面;
2)检查网站:浏览网站源码查看所需内容。
从豆瓣电影 Top 250网站中爬取需要数据,按照要求使用Python语言编写爬虫代码,爬取指定数据项,并对结果数据集进行数据探索、以及必要的数据处理操作。请将符合题目要求的代码答案复制粘贴至对应报告中。
具体步骤如下:
1)使用Scrapy框架创建爬虫项目
2)构建爬虫请求
3)按要求定义相关字段
4)获取有效数据
5)将爬取到的数据保存到指定位置
至此已从豆瓣电影 Top 250网站中爬取了所需数据,下一步我们要将爬取结果进一步进行相关数据操作。具体要求如下:
爬取电影列表数据:排名、标题、封面、是否可播放、导演、主演、发行日期、国家地区、类型、评分、评价人数并且存入到movie.csv文件中。
子任务二:数据处理
现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况、不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号等个人信息都需要进行数据脱敏。
相关数据文件中已经包含了数据采集阶段从豆瓣电影 Top 250网站上爬取的数据集,你的小组需要通过编写代码或脚本完成对相关数据文件中电影数据的清洗和整理。
请使用pandas库加载并分析相关数据集,根据题目规定要求使用pandas库实现数据处理,具体要求如下:
- 删除movie2.csv中删除可观看字段(is_playable)为false的数据并且存入movie2_c1_N.csv,N为删除的数据条数;
- 删除movie2.csv中删除数据源中删除演员数(actor_count)大于30的数据记录并且存入movie2_c2_N.csv,N为删除对应记录后剩余的数据条数;
- 将movie2.csv中国家和地区(regions)字段为多个国家和地区,将其设为该字段的第一个国家或地区值并且存入movie2_c3.csv;
将movie2.csv中观看数量(vote_count)统一设置为平均观看数(取整)并且存入movie2_c4_N.csv,N为平均观看数。