前言:
最近疫情原因,在家准备把从图书馆借的书都看看,好好为将来做准备。这本书主要是EXCEL的操作,对于使用要求不高的我,感觉够用了。毕竟是入门篇,我感觉是跟数据分析的关系不太紧密,更多的是应该这么做,这种指导性的语言和EXCEL的操作,还有一些基本的函数。
提醒:
- 从网站上下载的有些excel版本过低,有些书中的操作不能进行,就别跟我似的瞎着急了。需要先另存为“excel工作簿”。
- 斜体表示将书中已经过时的描述替换为应该的操作。
相关数据案例下载方式(包括标签工具JWalk Chart Tools)
cha1 数据分析总观
-
数据分析
目的:提炼数据背后的信息,总结研究对象的内在规律
分类:描述性、探索性、验证性
方法步骤:明确分析目的和思路、数据收集、数据处理(数据清洗、数据转化、数据提取、数据计算)、数据分析、数据展现(图表)、报告撰写(框架,明确的结论,建议解决方案)
数据挖掘:高级的数据分析方法,解决“分类、聚类、关联和预测”,寻找模式与规律 -
常用术语
频数:数据中个别数据重复出现的次数
频率:每组类别次数与总次数的比值比率:不同类别数值的对比,反映整体中各部分之间的关系
比例:总体中各部分数值占全部数值的比重番数:原来数量的2的N次方倍
同比:与历史同期比较得到的数值
环比:与前一个统计期比较得到的数值
cha2 分析思路
分析方法
PEST分析法 | 5W2H | 逻辑树 | 4P | 用户行为理论 |
---|---|---|---|---|
宏观环境的分析 | 营销 | 网站分析 | ||
– | – | – | – | – |
Politicial Economic Social Technological | What Why Who When Where How How much | Product Price Place Promotion | 认知-熟悉-试用-使用-忠诚 |
cha3 数据准备
- 字段:事物或现象的某种特征,是变量。
- 记录:事物或现象某种特征的具体表现,是数据或变量值
- 数据表:数据透视表
添加到选项卡 page55
导入数据表 page58
导入文本数据:“数据”选项卡-“获取外部数据”选项 注意选择合适的“分隔符号”或者固定宽度(分割人名)
cha4 数据处理
-
数据清洗
(1)重复数据的处理
① page71 COUNTIF(range, criteria)
//对区域中满足单个特定条件的单元格进行计数(要技术的单元格范围,计算条件)
② 高级筛选-不重复
③ 条件格式-突出显示
④ 数据透视表:行标签(编号),数值(计数项:编号)
(2)删除重复数据
① 数据-数据工作组-删除重复项
// ② 筛选-自定义筛选
(3)缺失值的处理
“ctrl+enter”在不连续的区域中同时输入一个数据或公式
(4)检查数据逻辑错误
① page81 IF(logical_test, value_if_true, value_if_false)
<>0 表示不等于0
② page82 OR(logical1, [logical2], …)
AND(logical1, [logical2], …) -
数据加工
① 数据抽取 LEFT(text, [num_chars])//得到字符串左部指定个数的字符(包含要提取的文本字符串,指定提取的字符数量)
RIGHT(text, [num_chars])
② 字段合并 CONCATENATE(text1, text2, …)
③ 字段匹配 VLOOKUP(lookup_value, table_array, col_index_num, range_lookup)//在表格的首列查找指定的数据,并返回指定的数据所在行中的指定列处的单元格内容(在表格的第一列中查找的值,包含的单元格区域,希望返回的匹配值的序号,近似匹配1还是精确匹配0),默认是近似匹配 -
数据计算
TODAY()//动态日期或时间
NOW()//静态日期或时间DATE(year, month, day)//返回某指定日期
YEAR(serial_number)
MONTH(serial_number)
DAY(serial_number)DATEIF(start_date, end_date, unit)//返回两个日期之间的年/月/日间隔数
unit: y/m/d/md/ym/yd 后三个是忽略没写的哪个时间 -
数据分组 VLOOKUP
-
数据转换
① 选择性粘贴-转置
② VLOOKUP(lookup_value, table_array, col_index_num, range_lookup)//在表格的首行查找指定的数据,并返回指定的数据所在行中的指定列处的单元格内容
③ ISNUMBER(text)//返回1/0
④SEARCH(find_text, within_text, start_num)//在表格的首行查找指定的数据,并返回指定的数据所在行中的指定列处的单元格内容 -
数据抽样
RAND()//返回[0,1]之间的数
INT()//取整
cha5 数据分析
对比分析 | 分组分析 | 结构分析 | 交叉分析 |
---|---|---|---|
两个或以上数据的比较 | 总体内部的分组 | 总部的各部分和总体的对比 | 两个变量之间的关系 |
分析差异,事物发展变化和规律 | 内在联系和规律性 | 总体占各部分的比例 | |
静态/动态,横比/纵比 | 相对指标 | 交叉表 |
综合评价分析 | 杜邦分析 | 漏斗图分析 | 矩阵关联分析 |
---|---|---|---|
多个指标 | 利用内在联系 | 流程长,环节多 | 两个指标 |
数据标准化([0,1]),权重确定(目标优化矩阵) | 金字塔形结构 | 两个象限分四个格 |
page131 数据分组统计 step04 单机鼠标右键-组合
cha6 数据展现
电梯法则:让领导在30秒内读懂数据
数据间关系:成分、排序、时间、频率分布、相关性(数据间关系)、多重数据比较
饼图 | 条形图 | 柱状图 | 折线图 | 散点图 | 表格 | 雷达图 |
---|---|---|---|---|---|---|
成分 | 成分、排序 、频率分布、相关性 | 成分、排序、时间 、频率分布、相关性 | 时间、频率分布 | 相关性 | 多重数据比较 |
- 样式-条件格式 可以:突出显示、项目选取(项目选取规则)、数据条、图标集、迷你图
- 复杂图表
平均线图:添加一列平均值数据
双坐标图:设置数据系列格式-次坐标轴
占位数据:将实际数据隔开的数值为0数据
竖形折线图:选择数据-选择数据源-添加(辅助列)
瀑布图:计算占位数据 第n个数据=总成本-前n个成本的和
帕累托图:柱状图+折线图
旋风图:调整数值区间、格式代码修改(不显示负值)、逆序刻度值、坐标轴标签(低)
漏斗图:占位数据、转化率
page173 漏斗外框:设计-添加图表元素-线条-系列线
散点图:调整坐标轴值、发展矩阵图(添加、删除线条)
cha7 图标的美观
原则: 严谨、简约、美关
图表的元素:标题、图例、单位、脚注(数据的原因)、资料来源
注意事项:
- 饼图:无图例(直接用标签)、不用3D效果、白色边框线、不超过5个部分(二维饼图)
- 最大数据墨水比
- 颜色搭配: 暖色调(冬春季度)
- 修建超大值
cha8 专业的报告
感觉毕设的PPT展示可以参考一下这部分的例子