数据分析
一、数据分析与统计入门
1. 基本概念
- 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
- 统计学是搜集、分析、表述和解释数据的科学,广泛应用在商务和经济活动中。
- 观测、实验、应用
2. 深入探究
- 观测:对事物形成客观量化的认知(报表、图表、仪表盘)
- 实验:发现规律、验证假设(科学研究、A/B测试)
- 应用:不断基于数据反馈迭代产品
3. 观测
- 观察:采集数据、储存数据、展示数据
- 采集数据:解析系统日志
- 采集数据:埋点获取新数据
- 采集数据:通过传感器采集
- 采集数据:爬虫(解析网站)
- 采集数据:API (API 平台文档、用API 获取数据)
- 储存数据:各类类型的数据库-hive、mysql、presto、impala(数据工程师)
- 储存数据:连接数据库取数
- 展示数据:可视化高效传达信息
- 测量:设定标准、发现异常、研究关系
4. 分析数据的目的
- 及时发现异常
- 找到数据之间的因果关系
5. 数据是客观统一的
- 数据是客观统一的:有统一的认知才能有共同的目标
- 设定标准+发现异常
- 研究关系:可视化查看相关性、建模推导相关性
6. 实验
- 提出假设,然后验证假设
- 观测到差评率飙升、假设由恶劣天气引起、通过天气数据验证假设
- 所有未经过事实数据验证的想法都是假设
- 设计A/B测试获取数据
- 实验目标、实验假设、实验打分、实验指标、实验观众、实验版本、开发验收、实验结果、实验分析、后续计划
7. 应用
- 如何应用数据创造价值
- 基于数据反馈不断迭代产品和业务策略
- 明确业务的目标,拆解目标,得到标准值
- 流程拆解法、二分法、象限拆解法、杜邦分析法、AARRR、pest、rfm、swot、5w1h(拆解只要符合mece法则即可)
- 将数据应用于业务
- 将数据应用于算法
- 为算法设定明确的业务目标
- 为算法提供高质量的数据
- 判断算法是否真的创造了实际价值
- 帮助业务更好地使用算法
- 基于数据训练算法,让机器自动化地完成工作
- 基于数据反馈不断迭代产品和业务策略
8. 术语
- GMV 营业额/商品交易总额
二、数据分析初步应用
1. 数据源
- 数据 (data) 是为了描述和解释所搜集、分析 汇总的事实和数字。
将用于特定研究而搜集的所有数据称为研究的数据集。 - 个体(element) 是指所收集数据的实体。
- 变量( variable) 是个体中所感兴趣的那些特征。
- WTO 身份:世界贸易组织中的成员身份,它可以是成员或观察员
- 人均GDP (美元) :国家总产出除以该国的总人口数,它通常用于比较国家经济生产率
- 贸易逆差(1000 美元) :国家的进口总额与出口总额之差
- 惠誉评级:由惠誉国际组织评价的国家主权信用评级,信用评级从最高的AAA到最低的F,可用+或-来微调。
- 惠誉评级展望:未来 信用评级可能变动的方向性指标,展望可以是正面、稳定或负面
- 在一项研究中,对每个个体的每一变量收集测量值,从而得到了数据。对某一特定个体得到的测量值集合称为一个观测值 (observation) 。
- 如上图所示,我们得到第一个观测值(亚美尼亚)的测量值集合是成员、 5400,267335739,BB-,Stable 。第二个观测值(澳大利亚)的测量值集合是成员,40 800,-33304157, AAA , Stable 。
- 60 个个体的数据集有 60 个观测值。
2. 数据可视化
- 数据可视化是关于数据视觉表现形式的科学。其中,这种表现形式被定义为一种包括相应信息单位的各种属性和变量的信息抽取和提炼。
3. 小结
- 数据来源类型包括数据文件、数据库、API、流式数据、外部公开数据和其他来源等。
- 统计实践的准则
- 公平、谨慎、客观和中立的态度
- 数据分析及统计从业人员应当避免任何对预测结果有倾向性的统计分析工作。
- 例:在国内的许多地区,饭店内是不允许吸烟的,假如烟草业的说客在允许吸烟的饭店进行调查. 目的是估计赞成在饭店内允许吸烟的就餐者比例, 抽样结果表明 90% 的受访者同意在饭店内允许吸烟。根据这个抽样结果,说客声称饭店所有就餐者中有90% 的人赞成在饭店内允许吸烟。在这个案例中我们应该指出只在允许吸烟的饭店所做的抽样会歪曲调查结果。如果只报告该研究的这个最终结果,而不熟悉研究的细节(如样本是在允许吸烟的饭店搜集的) ,读者就会被误导。
4. 案例
- 这个数据集中有多少个体? 10
- 这个数据集中有多少变量? 5
- 哪些变量是分类变量,哪些变量是数量变量?
- The ten elements are the ten tablet computers
- 5 variables: Cost ($), Operating System, Display Size (inches), Battery Life (hours), CPU Manufacturer
- Categorical variables: Operating System and CPU Manufacturer
- Quantitative variables: Cost ($), Display Size (inches), and Battery Life (hours)
三、图表分析方法初步
1. 数据可视化
- 数据可视化 (dala visalization) 常常用于描述汇总和表述一个数据集信息的图形显示的效用
- 频数分布是一种数据的图表汇总方法,表示在几个互不重叠组别中,每一组项目的个数(即频数)。
- 条形图 (bar chart) 是一种图形方法,用来描绘已汇总的分类数据的频数分布、相对频数分布或百分数频数分布。
- 在图形的一个轴上(通常是横轴) ,我们规定了用来对数据分组(类别)的标记,在图形的另一个轴上(通常是纵轴) 标出频数、相对频数或百分数频数的刻度。
- 用一个固定宽度的长条绘制在每一组的标记上,将这个长条的高度延伸,直到达到该组的频数、相对频数 、点百分数频数 、对于分类变量数据应将这些长条分隔开,以强调每一组是相互独立的事实。
- 饼形图 (pie chart) 是另一种描绘分类型数据的相对频数和百分数频数分布的图形方法。首先画一个圆来代表所有的数据, 然后用相对频数把圆细分成若干扇形部分 ,这些扇形与每一组的相对频数相对应。
- 一般地,饼形图不是呈现对比的百分比的最佳途径。人们更愿意准确判断长度间的差异,而非角度(或部分)间的差异,当进行这样的比较时建议你使用条形图。
四、实践中的数据分析
1. 数据处理经验
- 数据清洗:缺失值、异常值和重复值的处理
- 样本类别不平衡
- 解决数据源的冲突
- 数据的共线性
五、Excel基础操作
1. sum函数
- SUM(number1,number2,…) SUM(列名) SUM(行名)
- SUM(单个或多个单元格) SUM(列的名称 如:A:A) SUM(行的名称 如:1:1)
- 例1:单元格里输入=sum(C15:C21)
- 例2:=SUM(‘源数据’!J:J) // 1-8月GMV
- 例3:=SUM(‘源数据’!J2:J25,‘源数据’!J496:J562) // 1月和8月GMV
- 视图 - 新建窗口 分屏(方便查看数据)
- 视图 - 冻结窗格 基于选择的单元格冻结
- 点B2的格子然后点冻结窗格可以实现第一行和第一列同时冻结