CDA 数据分析师 Level1 基本知识(1)

1.什么是EDIT

E:exploration 探索(是什么)

D:Diagnosis诊断(为什么?)

I、Instructiong指导(怎么做?)

T、Tool工具(靠什么?)

2.数据分析的步骤

制定计划、数据收集、数据处理、数据分析、数据显示和报告撰写

3.Numbers 是苹果公司的电子表格工具,Power IB ,Tableau,MySql是表结构工具

4.表结构数据的特征

(1)表中的第一行是标题行,也称为字段名。

(2)表中第二行开始到最后一行的内容称为记录。

(3)字段名用以定位不同的字段,每个字段必须有字段名,且同一个表中的字段名不能重复。

(4)表中所有字段的记录数一致。

5.表格与表的区别

(1)表格数据中的最小单位是单元格,表数据中最小单位是字段。
(2)表格数据中可以没有列名,表数据中每个字段必须有字段名,且同一个表中的字段名不能重复。
(3)表格数据中每一列的数据类型可以不一致,表数据中每个字段的数据类型必须一致。
(4)表格数据中每一列的行数可以不一致,表数据中每个字段的记录数必须一致,字段中可以有缺失值,但总记录数是一致的。

6.什么是数据仓库(DW)

  对多种业务数据进行筛选和整合,可以用于数据分析、数据挖掘、数据报表,数据仓库是将多个数据源的数据按照一定的主题集成起来,因为之前的数据各不相同,所以需要抽取、清洗、转换。
整合以后的数据不允许随便修改,只能分析,还需要定期更新

7.OLTP和OLAP的区别

OLTP(on-line transaction processing)翻译为联机事务处理,

OLAP(On-Line Analytical Processing)翻译为联机分析处理,

从字面上来看OLTP是做事务处理,OLAP是做分析处理。

从对数据库操作来看,OLTP主要是对数据进行增删改,OLAP是对数据进行查询。

一个 Cube 就是许多按维度聚合的物化视图的集合,Cube是MOLAP中使用的一种技术。MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说, MOLAP使用多维数组存储数据。

8.透视分析中维度筛选度量,业务观测角度,多为文本型字段
9.所有链接查询都可替换成子查询,但是子查询不能替换成链接查询

一般情况下,子查询会产生笛卡儿积,表连接的效率要高于子查询。因此在编写 SQL 语句时应尽量使用连接查询。

10.假设检验基本知识

(1)方差已知时,单个正态总体均值检验,也称为u检验

(2)方差未知时,单个正态总体的均值检验,也称t检验

(3)σ^2未知,单个正态总体方差的检验,也称为:X^{2}检验

详细内容:概率论考点之检验统计量(区间估计)_guangod的博客-CSDN博客_检验统计量 

11. 多维数据透视分析相关知识

(1)维度:业务角度,度量:业务行为结果,维度表:只有维度的表,事实表:既有维度又有度量

(2)影响连接汇总的三要素:筛选器方向(分为单向和双向,决定维度度量的方向),对应关系(一对一,一对多,多对一),汇总角色(维度,度量)

(3)三种模式:星形模式(一个事实表跟多个维度表相连),雪花模式(维度表跟维度表相连),星座模式(多个事实表共用某些维度表)

(4)

注:用Average 求得的总平均值是是主键的总平均值

(5)业务分析方法(面对有限数据的分析思路):树形结构分析,二八分析(树状图+折线图),四象限分析,同期群分析(同样的对象以时间为轴看发展)

12.表数据结构与表格数据结构

 (1)表格数据结构:Excel,WPS,Numbers

         表结构数据结构:数据库,ETL工具,可视化工具

(2)表格数据结构获取方式:

         从企业后台数据库系统选取( SQL 后台选取数据),电子表格工具支持的数据文件:1.文本文件,2.电子表格工具

         从前端操作平台获取数据(前端操作平台:ERP,CRM,财务系统),缺点:只能导出提前设定好(逻辑)的数据内容

       从企业外部渠道获取数据,csv(以逗号隔开),txt(以制表符隔开),xlsx(EXCEL 文件),ET(WPS文件)

13.可视化图标分析:

(1)比较类图表:油量表,圆环百分比进度图,柱状图,条形图,雷达图,树状图,地图

(2)序列类图表:连续有序类别的数据波动过程,各阶段递减过程

(3)构成类图表:饼图,环形图,南丁格尔玫瑰图,堆积图,百分比堆积图,瀑布图

(4)描述类图表:直方图,散点图,气泡图

(5)数据分析报告的作用:定义时间段内的综合性事件评估,了解该事件段内的业务事实表现

(6)数据分析报告的撰写流程:业务理解-数据收集-数据处理-数据分析-图表制作-报告绘制

(7)可视化报表的创建过程:业务理解-整体设计-数据收集-数据加工整理-搭建多维数据环境-创建复杂汇总规则-数据展现

14.商业报告撰写

   常用句式:通过/基于分析[数据事实],发现[业务强弱],考虑[业务原因]/建议[改进方案]

例如:

15.业务分析报告与可视化报表的差异

 

16  可视化报表数据分析内容

   

5W2H:思维模型(1)WHAT--是什么?目的是什么?做什么工作?(2)WHY--为什么要做?可不可以不做?有没有替代方案?(3)WHO--谁?由谁来做?(4)WHEN--何时?什么时间做?什么时机最适宜?(5)WHERE--何处?在哪里做?(6)HOW --怎么做?如何提高效率?如何实施?方法是什么?(7)HOW MUCH--多少?做到什么程度?数量如何?质量水平如何?费用产出如何?

ETL,抽取(extract),转换(transform),加载(load),数据仓库技术 ,将零散的数据整合到一起

17 数据分析:以数据为分析对象,探索数据内的有用信息为主要途径,以解决业务需求为最终目标

数据挖掘:是一个跨学科的计算机科学分支,它是用人工智能,数据库,机器学习和统计学的交叉方法在相对较大型的数据集中发现模式的计算过程

  • 3
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值