数据分析方法论

最新推荐文章于 2024-03-09 10:47:56 发布

pilongjiao

最新推荐文章于 2024-03-09 10:47:56 发布

阅读量823

点赞数

分类专栏：数据分析文章标签：数据分析方法论

数据分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

原文1+原文2

数据分析方法论主要有两大块：

1）统计分析方法论：

描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等；

2）营销管理分析方法论：

SWOT、4P、PEST、SMART、5W2H、User behavior等。

一、统计分析方法论：
1.描述统计（Descriptive statistics）：
描述统计是通过图表或数学方法，对数据资料进行整理、分析，并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。
目的是描述数据特征，找出数据的基本规律。
描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。 ?
1.1、数据的频数分析：利用频数分析和交叉频数分析来检验异常值。此外，频数分析也可以发现一些统计规律。
1.2、数据的集中趋势分析：数据的集中趋势分析是用来反映数据的一般水平，常用的指标有平均值、中位数和众数等。
1）平均值：是衡量数据的中心位置的重要指标，反映了一些数据必然性的特点，包括算术平均值、加权算术平均值、调和平均值和几何平均值。
2）中位数：是另外一种反映数据的中心位置的指标，其确定方法是将所有数据以由小到大的顺序排列，位于中央的数据值就是中位数。
3）众数：是指在数据中发生频率最高的数据值。
如果各个数据之间的差异程度较小，用平均值就有较好的代表性；而如果数据之间的差异程度较大，特别是有个别的极端值的情况，用中位数或众数有较好的代表性。
1.3、数据的离散程度分析：数据的离散程度分析主要是用来反映数据之间的差异程度，常用的指标有方差和标准差。方差是标准差的平方，根据不同的数据类型有不同的计算方法。
1.4、数据的分布：常用偏度-峰度法需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度；而峰度衡量的是样本分布曲线的尖峰程度。一般情况下，如果样本的偏度接近于0，而峰度接近于3，就可以判断总体的分布接近于正态分布。
1.5、绘制统计图：用图形的形式来表达数据。

2.假设检验：是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是：根据问题的需要对所研究的总体作某种假设，记作H0；选取合适的统计量，这个统计量的选取要使得在假设H0成立时，其分布为已知；由实测的样本，计算出统计量的值，并根据预先给定的显著性水平进行检验，作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法，秩和检验等。

3.相关分析：相关分析是研究现象之间是否存在某种依存关系，并对具体有依存关系的现象探讨其相关方向以及相关程度，是研究随机变量之间的相关关系的一种统计方法。常见的有线性相关分析、偏相关分析和距离分析

4.方差分析(Analysis of Variance，简称ANOVA)：又称“变异数分析”或“F检验”，用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。

5.回归分析：线性回归，曲线回归，二元logistic回归，多元logistic回归。
5.1、线性回归：线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。
5.2、曲线回归：两个变数间呈现曲线关系的回归。
5.3、二元logistic回归、多元logistic回归：Logistic回归主要用于因变量为分类变量（如疾病的缓解、不缓解，评比中的好、中、差等）的回归分析，自变量可以为分类变量，也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量，并可以给出预测公式用于预测。
因变量为二分类的称为二项logistic回归，因变量为多分类的称为多元logistic回归。

6.聚类分析：主要解决的是在“物以类聚、人以群分”，基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。首先确定选择哪些指标对用户进行聚类；然后在选择的指标上计算用户彼此间的距离，距离的计算公式很多，最常用的就是直线距离（把选择的指标当作维度、用户在每个指标下都有相应的取值，可以看作多维空间中的一个点，用户彼此间的距离就可理解为两者之间的直线距离。）；最后聚类方法把彼此距离比较短的用户聚为一类，类与类之间的距离相对比较长。
6.1、k-means：从N个文档随机选取K个文档作为质心，对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类，重新计算已经得到的各个类的质心，迭代2～3步直至新的质心与原质心相等或小于指定阈值，算法结束。
6.2、分层：层次聚类(Hierarchical Clustering)是聚类算法的一种，通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。

6.3、FCM：是一种基于划分的聚类算法，它的思想就是使得被划分到同一簇的对象之间相似度最大，而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进，普通C均值算法对于数据的划分是硬性的，而FCM则是一种柔性的模糊划分。

7.判别分析：从已知的各种分类情况中总结规律（训练出判别函数），当新样品进入时，判断其与判别函数之间的相似程度（概率最大，距离最近，离差最小等判别准则）。

7.1、最大似然法：用于自变量均为分类变量的情况，该方法建立在独立事件概率乘法定理的基础上，根据训练样品信息求得自变量各种组合情况下样品被封为任何一类的概率。当新样品进入是，则计算它被分到每一类中去的条件概率（似然值），概率最大的那一类就是最终评定的归类。

7.2、距离判别：其基本思想是由训练样品得出每个分类的重心坐标，然后对新样品求出它们离各个类别重心的距离远近，从而归入离得最近的类。也就是根据个案离母体远近进行判别。最常用的距离是马氏距离，偶尔也采用欧式距离。距离判别的特点是直观、简单，适合于对自变量均为连续变量的情况下进行分类，且它对变量的分布类型无严格要求，特别是并不严格要求总体协方差阵相等。

7.3、Fisher判别：亦称典则判别，是根据线性Fisher函数值进行判别，通常用于梁祝判别问题，使用此准则要求各组变量的均值有显著性差异。该方法的基本思想是投影，即将原来在R维空间的自变量组合投影到维度较低的D维空间去，然后在D维空间中再进行分类。投影的原则是使得每一类的差异尽可能小，而不同类间投影的离差尽可能大。Fisher判别的优势在于对分布、方差等都没有任何限制，应用范围比较广。另外，用该判别方法建立的判别方差可以直接用手工计算的方法进行新样品的判别，这在许多时候是非常方便的。

7.4、Bayes判别：许多时候用户对各类别的比例分布情况有一定的先验信息，也就是用样本所属分类的先验概率进行分析。比如客户对投递广告的反应绝大多数都是无回音，如果进行判别，自然也应当是无回音的居多。此时，Bayes判别恰好适用。Bayes判别就是根据总体的先验概率，使误判的平均损失达到最小而进行的判别。其最大优势是可以用于多组判别问题。但是适用此方法必须满足三个假设条件，即各种变量必须服从多元正态分布、各组协方差矩阵必须相等、各组变量均值均有显著性差异。

8.主成分与因子分析：

8.1、主成分分析基本原理：利用降维（线性变换)的思想，在损失很少信息的前提下把多个指标转化为几个综合指标（主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能（主成分必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目的。

8.2、因子分析基本原理：利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，将变量表示成为各因子的线性组合，从而把一些具有错综复杂关系的变量归结为少数几个综合因子。（因子分析是主成分的推广，相对于主成分分析，更倾向于描述原始变量之间的相关关系）。

9.时间序列分析：时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析，所以又可看作是随机过程统计的一个组成部分。例如，记录了某地区第一个月，第二个月，……，第N个月的降雨量，利用时间序列分析方法，可以对未来各月的雨量进行预报。

10.决策树(Decision Tree）：是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。

二、营销管理方法论：
1.SWOT分析:
Strength：优势
Opportunity：机会
Weakness：劣势
Threat：威胁

2.4P分析:
Product(产品)、Price(价格)、Promotion(促销)、Placre(渠道)

3.PEST分析：宏观环境分析
Politics(政治)、Economy(经济)、Society(社会)、Technology(技术)

4.SMART分析：
Specific(明确性)、Measurable(可量化)、Attainable(可实现)、Relevant(相关联)、Time(时效性)

5.5W2H分析：
WHAT(是什么？目的是什么？做什么工作？)、WHY(为什么要做？可不可以不做？有没有替代方案？)、WHO(谁？由谁来做？)、WHEN(何时？什么时间做？什么时机最适宜？)、WHERE(何处？在哪里做？)、HOW( 怎么做？如何提高效率？如何实施？方法是什么？)、HOW MUCH(多少？做到什么程度？数量如何？质量水平如何？费用产出如何？)

6.User behavior分析：
用户行为轨迹：认知、熟悉、试用、使用、忠诚；
用户的网站行为：网站访问、网站浏览、站内搜索、用户注册、用户登陆、
用户订购、用户黏性、用户流失