任务A:数据采集与处理
环境说明:
操作系统:windows 10 IDE:PyCharm Community-2023.2 软件:Python 3.11.4 库包:Scrapy==2.10.1,lxml==4.9.3 |
子任务一:数据采集
网站解析,利用Chrome查看网页源码,分析豆瓣音乐 Top 250(https://music.douban.com/top250)网页结构。
1)打开豆瓣音乐 Top 250网站,在网页中右键点击检查,或者F12快捷键,查看元素页面;
2)检查网站:浏览网站源码查看所需内容。
从豆瓣音乐 Top 250网站中爬取需要数据,按照要求使用Python语言编写爬虫代码,爬取指定数据项,并对结果数据集进行数据探索、以及必要的数据处理操作。请将符合题目要求的代码答案复制粘贴至对应报告中。
具体步骤如下:
1)使用Scrapy框架创建爬虫项目
2)构建爬虫请求
3)按要求定义相关字段
4)获取有效数据
5)将爬取到的数据保存到指定位置
至此已从豆瓣音乐 Top 250网站中爬取了所需数据,下一步我们要将爬取结果进一步进行相关数据操作。具体要求如下:
爬取音乐列表数据::标题、封面、歌手、发行日期、类型、介质、曲风、评分、评价人数并且存入到music.csv文件中。
子任务二:数据处理
现已从相关网站及平台获取到原始数据集,为保障用户隐私和行业敏感信息,已进行数据脱敏。数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况、不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号等个人信息都需要进行数据脱敏。
相关数据文件中已经包含了数据采集阶段从豆瓣音乐 Top 250网站上爬取的数据集,你的小组需要通过编写代码或脚本完成对相关数据文件中音乐数据的清洗和整理。
请使用pandas库加载并分析相关数据集,根据题目规定要求使用pandas库实现数据处理,具体要求如下:
- 删除music2.csv中发型日期不为年-月-日格式的数据并且存入music2_c1_N.csv,N为删除的数据条数;
- 删除music2.csv中删除数据源中歌手名大于10个字符的数据记录并且存入music2_c2_N.csv,N为删除的条数;
- 将music2.csv中评分低于8.5的数据设置为0并且存入music2_c3.csv;
- 将music2.csv中评价人数设置为平均值并且存入music2_c4_N.csv,N为平均值取整。