1.数据分析那些事儿
1.1 什么是数据分析
1.1.1 定义
是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
- 描述性数据分析(初级)
- 探索性数据分析(高级)
- 验证性数据分析(高级)
1.1.2 数据分析的作用
- 现状分析——过去发生了什么,一般通过日常通报来分析
- 原因分析——现状为什么发生,一般通过专题分析来完成,针对某一现状分析原因
- 预测分析——将来会发生什么,一般通过专题分析来完成,通常在企业年度、季度等计划时进行,开展的频率没有现状分析和原因分析频繁
1.2 数据分析六部曲
1.2.1 明确分析目的与思路
- 高级数据分析师一定要明确分析目的
- 明确分析目的后,要确保分析结构的体系化,即分析点之间要有逻辑联系
- 明确分析目的与思路,是确保数据分析过程有效进行的先决条件,它可以为数据的收集、处理及分析提供清晰的指引方向
1.2.2 数据收集
- 数据库
- 公共出版物
- 互联网
- 市场调查
1.2.3 数据处理
- 数据清洗
- 数据转化
- 数据提取
- 数据计算
1.2.4 数据分析
- 数据分析方法
- 数据分析工具
1.2.5 数据展现
运用表格和图形,进行数据可视化
1.2.6 报告撰写
- 分析框架结构化
- 结构清晰、主次分明
- 图文并茂,可以令数据更加生动
- 结论明确化
- 建议、解决方案业务化
- 好的分析报告一定要有建议或解决方案
- 好的分析报告一定出自对产品和运营的透彻理解
1.3 数据分析的三大误区
- 分析目的不明确,为分析而分析
- 缺乏业务知识,分析结果偏离实际
分析师必须懂营销,懂管理,更要懂策略
- 一味追求使用高级分析方法,热衷于研究模型
高级的数据分析方法不一定是最好的,能够简单有效解决问题的方法才是最好的。
1.4 数据分析的要求
1.4.1 硬件要求
- 懂业务
- 懂管理
- 提出搭建数据分析构架的要求
- 针对数据分析结论提出有指导意义的分析建议
- 懂分析
- 掌握数据分析的基本原理
- 使用有效的数据分析方法
- 懂工具
- 懂设计
1.4.2 软件要求
- 态度严谨负责
- 好奇心强烈
- 逻辑思维清晰
- 擅长模仿学习
- 勇于创新
1.5 几个常用指标和术语
平均数
一般指算数平均数,它将总体内各单位的数量差异抽象化,代表总体的一般水平,掩盖了总体内各单位的差异
绝对数与相对数
绝对数:反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标
相对数:指两个有联系的指标对比计算而得到的数值,是用以反映客观现象之间数量联系程度的综合指标;一般以倍数、成数、百分数等表示,反映了客观现象之间数量联系的程度
相对数=比较数值(比较)➗基础数值(基数)
百分比与百分点
百分比:相对数中的一个,表示一个数是另一个数的百分之几
百分点:是不同时期以百分数的形式表示的相对指标的变动幅度
表示构成的变动幅度不宜使用百分数,而要使用百分点
频数与频率
频数:一组数据中个别数据重复出现的次数
频率:每组类别次数与总次数的比值,代表某类别在总体中出现的频繁程度
某班50名学生,30男20女
则男生的频数为30,频率为30%
频数是绝对数,频率是相对数
比例与比率
比例:总体中各部分的数值占全部数值的比重,反映的是部分与整体之间的关系
比率:不同类比数值的对比,反映的是部分与部分之间的关系
某班50名学生,30男20女
则男生的比例是30:50,男生与女生的比率为30:20
倍数与番数
倍数:一个数除以另一个数所得的商
番数:原来数量的2的N次方倍
倍数一般适用于数量的增长或上升幅度,不适用于表示数量的减少或下降。
同比与环比
同比:与历史同时期比较得到的数值,反映的是事物发展的相对情况,如
环比:与前一个统计期进行比较得到的数值,反映的是事物逐渐发展的情况
2. 结构为王,确定分析思路
2.1 数据分析方法论
2.1.1 数据分析方法论与数据分析方法的区别
方法论 | 5W2H、4P、逻辑树等分析思路 |
---|---|
工具 | Excel、SPSS、SAS等 |
技术 | 交叉分析、相关分析、回归分析、聚类分析等 |
2.1.2 重要性
只有在营销、管理等方法和理论的指导下,综合实际业务情况,才能确保数据分析维度的完整性、分析结果的有效性及正确性
数据分析方法论帮助我们确定分析框架,然后我们再根据分析框架中的这些问题形成可量化的指标进行衡量和评价
2.2 常用的数据分析方法论
2.2.1 PEST分析法
PEST分析法用于对宏观环境进行分析
宏观环境:影响一切行业和企业各种宏观力量
政治环境(Political)
经济环境(Economic)
- 宏观经济环境
- 微观经济环境
社会环境(Social)
技术环境(Technical)
- 国家对科技开发的投资和支持重点
- 该领域技术发展动态和研究开发费用总额
- 技术转移和技术商品化速度
- 专利及其保护情况等
2.2.2 5W2H分析法
2.2.3 逻辑树分析法
作用:帮助你理清自己的思路,避免进行重复和无关的思考。
特点:逻辑树能保证解决问题的过程的完整性,它能将工作细分为便于操作的任务,确定各部分的优先顺序,明确地把责任落实到个人
原则:
- 要素化:把相同问题总结归纳为要素
- 框架化:将各个要素组织成框架,遵守不重不漏的原则
- 关联化:框架内的各要素保持必要的相互关系,简单而不孤立
2.2.4 4P营销理论
- 产品(Product)
- 价格(Price)
- 影响定价的主要因素有三个——需求、成本、竞争
- 最高价格取决于市场需求,最低价格取决于该产品的成本需求
- 在最高价格和最低价格的区间内,企业将价格定多高取决于竞争者的同种产品的价格
- 渠道(Place)
- 促销(Promotion)
2.2.5 用户使用行为理论
用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠诚用户。
3. 数据准备
3.1 理解数据
3.1.1 字段与记录(度量)
字段:事物或现象的某种特征
度量:事物或现象某种特征具体表现
3.1.2 数据类型
- 字符型数据:不具有算术运算能力的文本数据类型
- 数值型数据:可进行算术运算的数据类型
是否可用算术方法进行运算,是区分数据类型的重要特征
在Excel中,字符型数据在单元格中默认靠左对齐,数值型数据在单元格中默认右对齐
3.1.3 数据表要求
- 第一行是表的字段名,不能重复
- 数据部分不允许出现空白行和空白列,要保持数据的完整性
- 数据表中不能有合并单元格存在
- 数据表需要以一维表的形式存储
一维表
列标签是字段,且表中每个指标就对应一个取值
3.2 数据来源
3.2.1 导入数据——txt数据导入Excel
3.2.2 问卷录入要求
- 数值题
- 单选题
- 多选题
- 二分法
- 多重分类法
- 排序题
- 开放性文字题
4. 数据处理
4.1 数据处理简介
数据处理
根据数据分析的目的,将收集到的数据进行加工、整理,使数据保持准确性、一致性和有效性,以形成适合数据分析要求的样式,也就是一维表。
目的
抽取、推导出有价值、有意义的数据,将原始数据转化为可以进行数据分析的形式,使数据保持准确性、一致性和有效性。
数据处理方法分类
4.2 数据清理
4.2.1 重复数据处理
函数法
高级筛选法
条件格式法
数据透析表法
重复数据删除
数据➡️数据工具➡️删除重复项
4.2.2 缺失数据处理
一般情况下,可以接受的标准是缺失值在总数据的10%以下
产生原因:机械原因、人为原因
处理方法:
- 数值代替,一般使用样本的平均值代替
- 用统计模型计算出的值代替,常用回归模型
- 删除缺失值的记录
- 记录保留,仅在分析中做必要的排除
批量填充
- 定位空值
开始→查找和选择→定位条件→空值
2. 替换
等于号“=”→上键“↑”→"Ctrl+Enter"
3. 批量去除公式
复制→选择性粘贴→“值”