对于新手,拿到数据往往不知如何下手。那就按图索骥,依照以下五部一步步来
step1:明确问题 目标必须明确,基于当前业务出发。如一千个读者有一千个哈姆雷特一样,数据可以被解读出不同样子,必须集中目标,才能让数据有的放矢。否则,八成分析到最后,就像那老太太裹脚布班的无聊会议一样,又臭又长。
step2:理解数据 数据拿到手,至少要知道每一列代表的含义才好。这里建议把模糊定义的数据做个备注,方便自己理解,也方便日后展示时他人理解。
step3:数据清洗 这是漫漫数据分析路前的重头戏,删除重复值、处理异常值、补全缺失值、把文本数据转换成数值及日期……
step4:数据分析 以我粗浅的数据分析体验来说,这一步不太费脑子,按着目标一个个作答就行,如果觉得费脑子,就是技术不过关!
step5:数据可视化 可视化工具我现在只会python的皮毛还有excel,超爱excel,因为我崇拜PPTer,看看他们修该过的板式,真心赞叹图表精美(公众号:锐普PPT、利兄日记、islider都有超多好看的数据表可供参考)不过我觉得这一步应该再追加个结论,只把图扔给需求方,那是体力活,但提供了建议,可是干了脑力活,有种站在食物链顶端翻身做主人的快乐
数据来源☞
Baby Goods Info Data-数据集-阿里云天池tianchi.aliyun.com一、明确问题
天猫又搞来99什么节,紧接着十一双十一双旦,下半年的营销一浪高过一浪,店家冲业绩的关键时刻来了,想要通过数据分析帮助商家选品及对不同用户针对性地营销产品:
- 商品销量和时间的关系(总销售量和时间的关系、不同种类商品和时间的关系)
- 用户喜爱哪些商品类别
- 不同性别婴儿偏爱的商品种类分别是哪些
- 不同年龄婴对不同产品种类需求是否有差异?不同年龄阶段的婴儿分别对哪些产品的需求更为旺盛?
- 顾客的平均消费时长是多久?用于对顾客进行召回
二、理解数据
数据由购买商品信息表及婴儿信息表组成
购买商品信息表里包含了29971条数据,由7个字段构成,分别是
- user_id:用户id
- auction_id:购买行为编号
- cat_id:商品一级类目
- cat1:商品二级类目,是cat_id的细化
- property:商品属性
- buy_mount:购买数量
- day:购买时间
婴儿信息表包含953条数据,3个字段:用户id,用户出生年月及性别(0女性;1男性;2未知的性别)
三、数据清洗
1、选择子集:选择数据分析时需要的列,不需要的列也别删除,以便保持数据完整性,可以使用隐藏功能将列隐藏。(右键想要隐藏的列,选择“隐藏”;选择整个表格,“取消隐藏”)
商品表里,我选择隐藏了购买行为
2、列名重命名:英文标头还是中文表头随你喜好,但是建议在用Python时使用英文,中英文互换让人头疼
3、删除重复值:列名“用户id ”是唯一标识,若此列有重复就说明有重复数据。结果并未发现重复值┗( ▔, ▔ )┛
4、处理缺失值:用Excel右下角的计数功能,逐列对比,就能发现有没有缺失值了。
经检验发现商品信息表里商品属性一列有29803条数据,比总数29945有缺失,但也不是什么大事,就放着吧。婴儿表无缺失值。
处理缺失值的办法有四:
1).利用“定位条件”找到空值进行人工手动补全。(适用于缺失数据较少的情况)
2).删除缺失的数据。
3).用平均值代替缺失值。
4).用统一模型计算出的值代替缺失值。
5、一致化处理:简言之日期要是日期形式的,数值不能是字符串形式的。(字符串类型在EXCEL里默认左对齐,数值类型默认右对齐)
日期处理出现了点麻烦,用分列来解决,分列的前两步无需管,直接按下一步,第三部如图所示就可以解决问题了
本来我想要利用分列研究下商品属性,但发现里面的内容太多了,放弃吧~这里吧商品属性也隐藏
下面把婴儿表并到商品表里,采用vlookup查找信息进行拼接,结果发现出现好多空缺值。于是折返在商品表里查询了用户ID的重复值,有27条重复,看来大多用户数够买只有一次,如此求用户消费时间间隔貌似没有什么意义了。而且在此次拼接里,不知为何查询到的日期数据是错误的,所以我就折返到最初没有变更过日期的数据再次查询,查询后再做了时间处理
把拼接后的表格重新复制粘贴得到新表,有956条数据,并计算年龄(购买日期-出生年月)
出现#NUM是因为购买日期在出生日期之前,利用筛选功能晒出这批数据,然后把这部分替换成备孕。同样利用筛选,把性别分别替换成男女未知,于是表格如下
6.数据排序:对数据排序可以发现很多有价值的信息
所以在这里对商品表的购买量进行了降序,购买悬殊还是挺大的
对于合并表,去除备孕,再来对年龄进行排序,发现一个28岁的超大年龄宝宝,显然不符合常理,将其在合并表中删除~商品表中的购买数据还保留,严重怀疑是出生日期手滑写错了的
6、异常值处理 excel来处理异常值,用透视表发现端倪。刚刚通过排序剔除了一个数据,就先这样吧,之后用透视表来处理数据再让它大放异彩~~
在分析前,再来捋一下,我们要干啥,用啥表能达成目标~~~
四、数据分析/五、数据可视化
数据可视化在数据分析完成时,顺手就可以做,在此合并为一个步骤
终于到了激动人心的分析环节,干巴爹~~~~✧*。 (ˊᗜˋ*) ✧*。
- 不同种类商品销量和时间的关系
先从总量来探寻总销售量与时间的关系
然后把表格数据复制粘贴到新表,通过month(),year()函数提取年月,再通过&函数将年月合并,最后插入折线图
发现每年11月份的数据都较同期月份显著高,尤其是2014年11月份显著地高。
2014年11月份消费量为什么会显著高?
销售总量=人均消费量*消费人次
利用透视表,行设置为年月,列设置为用户ID,购买数量,由此统计出消费人次,当月人均购买量
通过图表发现在统计期间,每年11月份的消费人次都是较多的,人均购买量除了2013年,2012、2014均是高峰,为什么2013年人均消费下降了?是选品问题么?
再来分析不同种类商品销量在不同时间段是否存在一定的趋势?
分析之前,先来确定受用户喜爱的商品大类有哪些
用户最喜欢编号28品类,和品类销量最少的产品销量相差10多倍
回归正题,来看受欢迎的品类销量与时间的关系
图中深色已经显示出各受欢迎品类一年之中销量高的月份
2.顾客的平均消费时长是多久?
因为在数据清洗时,针对商品表用户ID进行了重复值的筛选,发现在如此庞大的交易量中,只有26位回头客,占比为0.083%,所以统计此数据没有太大意义。
但值得思考用户回购率为何如此低?是因为商品质量不过关?还是因为商品售后无法让顾客满意?
3.不同性别婴儿偏爱的商品种类分别是哪些
由统计结果发现,男女宝宝喜欢的商品品类还是有差别的,但都归属在最受欢迎的商品品类里,而不喜欢的商品一致,和最不喜欢的商品品类重合。
4.不同年龄婴对不同产品种类需求是否有差异?不同年龄阶段的婴儿分别对哪些产品的需求更为旺盛?
由数据可以发现不同年龄群体的偏爱程度还是有区别的,和上面的男女宝宝联合使用,有针对性对宝宝们推荐产品。
天啊 ,没想到终于写完了,其实没有那么复杂,只是要边写边截图,把内心戏写出来,就有点费劲了~~~加油~