世界上最深入人心的数据分析工具,是Excel,在日本的程序员考试中,程序语言部分,是可以选择Excel表格工具作为考试选项的。可见其重要性。
一,Excel数据清洗和构建模型必备知识
数据分析的步骤:
1,提出问题。
2,理解数据。
3,数据清洗。
4,构建模型。
5,数据可视化。
Excel中的数据类型主要有:文本型,数值型,逻辑型。
如果右键单元格显示为常规型,表示和数据本身表示出的类型相同。
数值类型一般是右对齐的。
【数据清洗】
1,选择子集——对列进行隐藏和再表示。
2,列名重命名——直接对列名进行重新命名。
3,删除重复值——数据选项卡,删除重复值,选择主键。
4,缺失值处理——通过查看列的总数据数量进行比较是否缺失。如果发现缺失值,点击开始选项卡中的查找和选项,点击定位条件,选择空值找到缺失值。对其中的一个缺失值处进行填写,ctrl+enter使其他的空格也填入同样的值。
5,一致化处理——进行单元格的复制和拆分处理。函数的运用。
几个重要的函数:
AVERAGE
FIND(要查找的字符串,字符串所在单元格)→返回一个数字,也就是位置。
LEFT/RIGHT(字符串所在的单元格,从左/右开始到要截取的字符数)
MID(字符串所在的单元格,开始位置数,截取长度)
LEN(单元格)→返回字符串的长度是个数字。
COUNT
IF(条件,条件成立值,条件不成立值)
VLOOKUP(查找目标,查找范围,返回列,精确0还是模糊1查找)
其他:
函数的复制:双击十字架。
使用数据筛选功能,处理没有正确适应函数的单元格。
一般函数报错,可能是因为数值类型是文字类型的数字,因此无法计算。可以进行数据类型转换,或者使用单元格拆分处理进行转换。
6,数据排序——排序可以使用开始菜单的排序和筛选功能。
数据透视表的原理:
Split(数据分组)→Apply(应用函数)→Combine(组合结果)
插入选项卡,选择数据透视表,选择新工作表,将需要进行数据分组的分析轴,拖入对应的行和列。
7,异常值处理——找到不需要的数据,和异常的数据。
数据清洗后,将文本另存为清洗结果文本,方便后续使用。
【构建模型】
1,使用数据透视表进行模型构建。构建后任意值右键,将值的显示方式设置为列汇总的百分比,可以改变显示方式。
2,分析工具加载。
文件选项卡,选项按钮,加载项按钮,选择跳转,加载宏中选择分析工具库,确定即可。
3,描述统计分析。
选择数据选项卡,选择数据分析按钮,弹出框中选择描述统计,输入选项即可生成新的统计表。
透视表中的值汇总依据,可以选择平均值。
【日期处理】
对日期的处理可以让我们提高工作效率。总结学习到的日期处理的小栗子。
1,购买年份和出生年份的差,求年龄。
A出生日期,B购买日期
=left(B1,4)-left(A1,4)
2,日期差取整数。
=round((B1-A1)/365)
3,如果业务要求取月份差,天数差,使用datedif函数。
又叫隐藏函数。
Datedif(起始日期,结束日期,返回值)
返回年使用=datedif(B1,A1, "y"),其他还有返回月数的m和返回日数的d。
使用时,要注意,起始日期要小于结束日期,不然会返回错误。
动态计算到今天的天数等,可以再结束日期处使用today()。
二,电商数据分析
重新熟悉一下数据字段:
对数据进行清理和整理:
(1)对商品购买表进行数据的简单清洗,主要是提取子集,对日期字段进行处理。
(2)对婴儿信息表进行数据的简单清洗,主要是通过vlookup函数匹配购买日期,用datedif函数算出年龄字段,以及对日期字段进行处理。。
(3)描述统计分析,主要对购买量和婴儿年龄进行了统计。
购买统计中的最大值为10000,暂做保留。
(4)使用数据透视表进行进一步分析。
①各个历史时间段内的购买数据分析。
分年进行统计:可以看出2014年购买量达到峰值。
按照月份进行统计,可以看到各个年份11月12月购买量最大,推测是双十一双十二的影响。
②对一级商品分类进行统计,可以看到编码为50018831的商品具有最高的购买量,可以针对此进行用户需求的分析。
③对婴儿年龄进行分析,可以看出,用户大部分集中在0~3岁,男性宝宝的用户量略微高于女性宝宝,少数用户没有记录年龄。
三,本周学习感悟和总结。
Excel是简单易于上手的分析工具,不需要复杂的安装,数据就可以在眼前通过各种形式表现出来,数据透视表更是功能强大堪比BI软件。简单一击就能将分析轴排布在右侧进行使用。
最初的印象是小看Excel的,对于自己不会的功能,总是以我不太懂Excel为借口蒙混过关,而通过学习发现,很多的大型公司也都在用Excel进行出色的分析。
另外关于数据分析的流程和思考方式,也非常实用,一切都要在实操中升华成自己的技能。遇到问题,发现问题,查找方法,积极交流,找到解决方案,无论是自己学习还是商业分析,都是很好用的方法论。
下周继续加油。