接着上一篇文章的内容。本文主要进行数据清洗:
- 电影时长不是数值,而是字符串
- 电影流派不是原子数据,很难提取特定的流派做分析。
- 上映年份格式修正
- 投票数修正为整型
本来以为自己爬取的数据存在两个瑕疵,但是在实际应用中发现,还有一个巨大的瑕疵:desecribe的时候,发现Votes一列不能被describe。
进行info查看信息的时候,发现Votes是一组对象,不为整型。使用int()函数强制转换的时候,出现报错。这才想起,爬取的数据为带逗号的数字,在python中被识别为字符串。
1.将电影时长转换为整型
遍历电影时长,将时长进行分裂(以空格分裂),分裂后成为列表,列表的第一个元素即为时长,转换为浮点型替换原有时长。
2.电影流派不是原子数据,很难提取特定的流派做分析。
首先创建一个