为什么要学Excel
随着科技进步,无纸化办公已经渗入到各个公司,Microsoft Office 的强大功能也很快取代了传统文档、表格。So,掌握word、excel、ppt已经成了职场基本技能。
浅析Excel(以某淘宝和天猫婴儿用品为例)
Baby Goods Info Data-数据集-阿里云天池tianchi.aliyun.com建议拿到数据先将数据做备份,万一数据清洗过程中出现问题,尚有后路可退☺
1、理解数据
数据来自淘宝和天猫上购买婴儿用户,本数据集包括2个excel文件
表1购买商品
user_id:用户id
auction_id:物品编号(item_id)
cat_id: 商品种类ID
cat1: 商品种类ID(商品一级分类,表示商品属于哪个类别)(cat1和cat_id分别是商品的一级分类和二级分类)
property:商品属性
buy_mount:购买数量
day:购买时间(是个时间戳格式,可以通过excel将时间戳显示未日期格式)
表2婴儿信息
user_id:用户id
birthday:出生日期
gender:性别(0女性;1男性;2未知的性别)
2、清洗数据(函数使用、数据分列、绝对值引用)
上图是对数据做了初步整理
- 使用函数vlookup,将表1、表2合并成一张表
函数公式:VLOOKUP(A2,表2婴儿信息.xls!$A:$B,2,0)(0精确查找,1模糊查找) - 为了方便阅读每行的列名,将英文的列名替换成中文
- 日期的格式转换:数据--分列--日期格式--完成。为了数据的美观,方便后面取年月的数据,我一般会设置格式yyyy-mm-dd
- 提取年、月为后面分年、月的分析做准备(也可以不做这一步,直接用数据透视表创建组)
函数公式:TEXT($G8,"yyyy"),TEXT($G8,"mm")(也可以用left、mid、right函数) - 计算年龄,一般年龄我们是默认向下取整
函数公式:rounddown((购买日期-出生日期)/365,0) - 去除异常值(结合业务场景做排除,有可能是特殊情况,也有可能是数据登记有误等等)
基本数据整理完成后,开始提取想要的数据信息(透视表、可视化图表)
- 近几年销量情况
- 男女消费占比
- 近几年各月销量情况(为了使数据具有可比性,这里我只截取了2012-2014年7-12月的数据,因为2012年1-6月缺数据,2015年的3-12月缺数据)
- 各年龄段男女购买比列来看,女性购买偏多
- 查看各年各月销量情况,方便后续计算同比增长率、环比增长率,分析销量异常的原因(11月销量剧增可能因为双11促销活动影响,6月销量下滑可能因为京东6.18截取部分客户等等原因)
据上述简单描述来看近几年总体销量在逐步上升,商品前景尚好(不考虑其他替代品的因素),从环比率反应出商品的用户忠诚度比较低,用户对于价格比较敏感,可以针对这些特征适当做定价策略,提高销量,增加利润等。
总体而言数据准确,具有可比性是出具商业报告的基本要素,我们要结合业务场景,适当对数据做调整,能够更接近业务发展的真相。
数据分析重要的是分析思维,学会多维度发散分析,不要担心数据的分析结果,以真实的报告展现,才能发现问题,为下一步策略提供准确的依据。