《从零进阶!数据分析的统计基础》-1.数据分析概述

目录

第一章 数据分析概述

1.什么是数据分析

2.数据分析的六个步骤

1.明确分析目的和内容

2.数据收集

3.数据处理

4.数据分析

5.数据展现

6.报告撰写

3.数据分析方法简介

统计分析方法

数据挖掘方法

4.统计分析与数据挖掘的区别和联系

1.统计分析与数据挖掘的联系

2.数据分析与数据挖掘的区别

5.课后练习


第一章 数据分析概述

1.什么是数据分析

1.比较常见的答案:数据分析就是分析数据,从一大堆数据中提取到你想要的信息

2.比较专业的答案:数据分析是由针对性的收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据的科学和艺术

3.比较客观的答案:基于某种行业目的,有目的地进行收集、整理、加工和分析数据,提炼信息的一个过程


2.数据分析的六个步骤

1.明确分析目的和内容

在进行数据分析之前,数据分析师应对需要分析的项目进行详细的了解,数据分析的对象是谁?数据分析的商业目的是什么?最后的结果要解决什么样的业务问题?

2.数据收集

按照确定的数据分析和框架内容,有目的地收集、整合相关数据。常用方法有观察法、访谈法、问卷法、测验法等

3.数据处理

第一步:数据审查

检查数据的数量是否满足要求,字段值的内容是否与研究目的的要求一致等

第二步:数据清洗

针对数据审查中发现的错误值、缺失值、异常值、可疑数据,选用适当的方法进行清洗

第三步:数据转换

不同字段值由于计量单位等不同,往往造成数据不可比,需要在分析前对数据进行变换,包括无量纲化处理、线性变换、汇总和聚集、适度概化、规范化、以及属性构造等

第四步:数据验证

初步评估和判断数据是否满足统计分析的需要,从而决定是否需要增加或减少数据量。利用简单的线性模型及散点图、直方图等进行探索,利用相关性分析、一致性检验等方法对数据的准确性进行验证

4.数据分析

数据分析是指通过分析手段、方法金额技巧对准备好的数据进行探索、分析。从中发现因果关系、内部联系和业务规律,为商业目的提供决策参考。

5.数据展现

一般情况下,数据分析的结果都是通过图、表的方式来呈现的,常用的图表包括饼形图、折线图、柱形图/条形图、散点图、雷达图、金字塔图、矩阵图、漏斗图、帕累托图等。

6.报告撰写

最后阶段,撰写数据分析报告,对整个数据分析结果的一个呈现。一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让读者一目了然。


3.数据分析方法简介

数据分析方法分为两张,一个是统计分析方法,另一个是数据挖掘方法

统计分析方法

1.描述性统计分析

描述性统计分析是通过图表或者数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的关系进行估计和描述的方法。分为集中趋势分析、离中趋势分析和相关分析三大部分。

集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。

离中趋势分析主要靠全距、四分差、平均差、方差、标准差等统计指标来研究数据的离中趋势。

相关分析是研究现象之间是否存在某种依存关系,并对具体由依存关系的现象进行其相关方向及相关程度的研究。这种关系既包括两个数据之间的单一相关关系(年龄与个人领域),也包括多个数据之间的多重相关关系(年龄、抑郁症发生率和个人领域空间),既包括直线相关,也可以是复杂相关,还包括两变量共同变化的紧密程度--相关系数

2.回归分析

回归分析是确定两个及以上变量之间相互依赖的定量关系的一种统计分析方法,设计自变量的多少,可以分为一元回归分析和多元回归分析,按照自变量和因变量之间的关系类型,可以分为线性回归和非线性回归。此处所讲的回归分析是指一元线性回归,区别于数据挖掘方法里的多元线性回归和逻辑斯蒂回归。

3.关联分析

又称"对应分析"、"R-Q型因子分析",通过分析由定性变量构成的交互汇总表来揭示变量之间的联系。可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的一个基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

4.因子分析

因子分析是指研究从变量群中提取共性因子的统计技术。就是从大的数据中寻找内在的联系,减轻决策困难的分析方法。如重心法、影像分析法、最大似然解法、最小平方法、阿尔法抽因法、拉奥典型抽因法、PCA等,大部分以相关系数矩阵为基础。

5.方差分析

又称"变异系数分析"、"F检验",是R.A.Fisher发明的分析方法,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究得到的数据呈现波动状,造成波动的原因可分为两类,一个是不可控的随机因素,另一个是研究中施加的对结果形成影响的可控因素。方差分析从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

数据挖掘方法

1.聚类分析

聚类分析是指将物理或抽象对象的集合分组称为由类似的对象组成的多个类的分析过程。是一种无监督的数据挖掘算法,例如机器学习专栏博客中提到的k-means聚类及其改进

2.分类分析

(1)决策树:ID3决策树、C4.5决策树、CART决策树

(2)人工神经网络

(3)贝叶斯分类方法

(4)支持向量机

(5)随机森林

3.关联规则

关联规则数据挖掘的主要目的是找出数据集中的频繁模式,即多次重复出现的模式和并发关系。应用关联规则最经典的案例是购物篮分析,通过分析顾客购物篮中商品之间的关联,可以挖掘顾客的购物习惯,从而帮助零售商更好地制定有针对性的营销策略。

4.回归分析

回归分析包括线性回归,这里主要指多元线性回归和逻辑斯蒂回归。其中,在数据化运营中更多使用的是逻辑斯蒂回归,它包括响应预测、分类划分等内容。详情可见机器学习专栏博客。

4.统计分析与数据挖掘的区别和联系

1.统计分析与数据挖掘的联系

两者的理论来源相同,都是源于统计基础理论,因此它们的很多方法在很多情况下都是同根同源的。比如,概率论和随机事件是统计学的核心理论之一,统计分析中的抽样估计需应用该理论,而在数据挖掘技术的朴素贝叶斯分类中,就是这些统计理论的发展和延伸。

2.数据分析与数据挖掘的区别

(1)统计分析的基础之一就是概率论,在对数据进行统计分析时,分析人员常常需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量之间的关系,以及如何检验参数的统计显著性,然后利用数据分析技术来验证该假设是否成立;而在数据挖掘应用中,分析人员不需要对数据分布做任何假设,数据挖掘算法会自动寻找变量间的关系。因而对于海量、杂乱的数据,数据挖掘技术有明显的应用优势。

(2)统计分析在预测中的应用常表现为一个或一组函数关系式,而数据挖掘在预测领域应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式,最典型的例子就是“神经网络”,它里面的隐藏层就是一个“黑箱”,这会对模型在实践应用中的可理解性和可接受度造成一定影响。

5.课后练习

1.什么是数据分析?

2.数据分析的步骤有哪些?

3.常用的数据分析方法有哪些?

4.统计分析于数据挖掘的区别和联系?

5.请举出数据分析的几个例子?

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值