![79b2d04a4dcf5349b43a0c2c02c8a815.png](https://img-blog.csdnimg.cn/img_convert/79b2d04a4dcf5349b43a0c2c02c8a815.png)
在这一关中,我们学习了数据分析的五大步骤:明确问题、了解数据、数据清洗、数据建模分析、数据可视化。
回顾一下,其实在上一关,我们已经解决了前两部分:明确问题与了解数据,接下来重点解决数据清洗与数据建模分析。那么应该使用什么工具呢?是高大上的Python吗?不不,其实Excel就能解决,让我们一起动动手吧!
在进行数据处理之前,首先我们来回顾一下我们上一章中提到的业务问题:
- 在商品一级分类中哪类商品最受欢迎?最受欢迎的商品一级分类中哪个子类别最受欢迎?
- 2012-2015年哪年婴儿用品的销量最多?
- 根据男女性别分类,女婴和男婴用户数量占比多少?
- 用户的年龄分布
数据清洗第一步:考虑是否隐藏含义重复的字段
表1购买商品中商品编号与商品属性对于我们所要解决的业务问题并没有什么帮助,可以将其进行隐藏:选中列-右击-隐藏(在数据预处理过程中,我们尽量不去删除数据以保证数据的完整性)。
数据清洗第二步:根据业务分析要求进行字段名的修改
表1购买商品与表2婴儿信息中字段名(列名)均无需修改,但是为了方便阅读,可以将表2婴儿信息中性别字段的数