【数据分析】数据分析方法简介

数据分析四个层次

数据分析方法

属性内容

单纯的数据加工方法

描述性统计分析

定义

* 通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间的* * 关系进行评估和描述的方法。

分类

集中趋势分析:平均数、中数、众数等
离中趋势分析:全距、四分位距、方差、标准差
数据分布分析:指和正态分布相比,所得数据的直方图从形态上看是左偏还是右偏,从峰度上看是尖峰还是扁平。
相关分析

定义

研究现象之间是否存在某种依存关系,并对具体有依存关系的现象进行相关方向及相关程度的研究。

分类

单一相关关系:例如年龄与个人领域空间之间的关系
多重相关关系:例如年龄、抑郁症发生率和个人领域空间之间的关系
直线相关关系
复杂相关关系
正相关关系
负相关关系
相关系数:两变量共同变化的紧密程度

数理统计分析方法

方差分析

定义

* 又称“变异数分析”、“F检验”,用于两个及以上样本均数差别的显著性检验。

* 方差分析研究所得的数据呈现波动状。

* 方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

分类不可控的随机因素
研究中施加的对结果形成影响的可控因素
回归分析
定义

* 确定两个或以上变量之间的相互依赖的定量关系的一种统计分析方法

* 主要研究一个随机变量 Y 对另一个变量 X 或一组变量(X1, X2, ...,Xk)的相依关系

* 这里的回归分析是指一元线性回归,区别于数据挖掘方法里的多元线性回归和逻辑斯蒂回归

分类按照设计的自变量数量,可分为:一元回归分析、多元回归分析
按照自变量和因变量之间的关系类型,可分为:线性回归分析、非线性回归分析
因子分析
定义

* 研究从变量群中提取共性因子的统计技术。

* 从大量的数据中寻找内在联系,减轻决策困难的分析方法。

* 在社会经济统计研究中,因子分析常以主成分分析为基础

分类重心法
镜像分析法
最大似然解法
最小平方法
阿尔法抽因法
拉奥典型抽因法
这些方法本质上大都属于近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性估值。

数据挖掘方法

思路

* 根据历史数据得出某种规则,根据规则进行判断,例如分类。

* 得出规则的过程,就是所谓的数据挖掘算法。

* 基于数据挖掘的数据分析工具有:SPSS Modeler、SAS EM 和 R软件。

* 有些需要数学公式(决策树),有些不需要(关联规则)。

* 只需要明白算法原理,公式计算过程通常由数据分析工具完成。

聚类分析
定义

* 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。

* 聚类是将数据分到不同的 类 或 的过程。

* 同一个簇中的对象有很大的相似性,而不同的簇之间的对象有很大相异性。

* 聚类分析是一种探索性的分析,使用不同的方法会得到不同的结论。

分类分析之决策树
定义

* 有名的决策树算法:CART 和 CHAID,算法的不同之处是在于分支规则的生成函数

* 应用最广的归纳推理算法之一,是一种逼近离散值目标函数的方法

* 对噪声数据有很好的健壮性且能学习析取表达式。

* 通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。

* 树上每个节点都说明了对实例的某个属性的测试,并且该节点的每个后继分支对应于该属性的一个可能值。

优点

1. 生成可以理解的规则

2. 计算量相对不大

3. 可以处理连续和离散变量

4. 可以清晰地显示出哪些变量比较重要

缺点

1. 对连续性的变量比较难预测

2. 当类别太多时,错误可能会增加的比较快

3. 一般的算法在分类时,仅根据一个属性来进行分类

4. 不是全局最优

分类分析之人工神经网络
定义

* 一种类似于大脑神经突触连接的结构进行信息处理的数学模型,是数据挖掘中机器学习的典型代表。

* 人工神经网络是由人工建立的以有向图为拓扑结构的动态系统,它通过对连续或断续的输入做状态响应而进行信息处理。

* 输入多个非线性模型及不同模型之间的加权互联(加权的过程在隐蔽层完成,最总得到一个输出模型)。其中,隐蔽层所包含的就是非线性函数。

主流算法反馈传播(Backpropagation):在多层前向型神经网络上进行学习,而多层前向型神经网络又是由一个输入层、一个或多个屏蔽层及一个输出层组成
特点

* 充分逼近任意复杂的非线性关系

* 所有定量或定性的信息都等势分布贮存于网络内的各神经元中

* 有很强的鲁棒性和容错性

* 采用并行分布处理方法,使得快速进行大量运算成为可能

* 可学习和自适应不知道或不确定的系统;能够同时处理定量、定性知识。

分类分析之贝叶斯分类方法
定义

用于预测类成员之间关系的可能性。

例如:通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。

分类朴素贝叶斯分类方法作为一种简单的贝叶斯分类算法甚至可以跟决策树和神经网络算法相媲美。
分类分析之支持向量机
概念

* 与传统的神经网络技术相比,支持向量机不仅结构简单,而且各项技术的性能也明显提升了

* 是一种新的分类方法

* 以结构风险最小为原则。

* 在线性的情况下,它在原空间寻找两类样本的最优分类超平面。

* 在非线性的情况下,它使用一种非线性的映射,将原训练集数据映射到较高的维上

* 在新的维它搜索线性最佳分离超平面,使用一个适当的方法对足够高维的非线性映射,两类数据总可以被超平面分开。

分类分析之随机森林
概念

* 是一种组合分类器,它利用Bootstrap重抽样方法从原始样本中抽取多个样本,对每个Bootstrap样本进行决策树建模

* 然后将这些决策树组合在一起,通过投票得出最终分类或预测的结果。

* 大量的理论和实证研究都证明了随机森林算法具有较高的预测准确率,对异常值和噪声具有很好的容忍度且不容易出现过拟合

算法示意图
关联规则
概念

* 在数据库和数据挖掘领域中被广泛研究的一种重要模型

* 关联规则数据挖掘的主要目的是找出数据集中的频繁模式(Frequent Patter,即多次重复出现的模式)和并发关系(Cooccurrence Relationships,即同时出现的关系),频繁和并发关系也被称作关联(Association)

* 关联规则算法不但在数值型数据集的分析中有很大用途,而且在纯文本文档和网页文件中也有着重要的用例

* 如发现单词之间的并发关系及Web的使用模式等,这些都是Web数据挖掘、搜索及推荐的基础。

经典案例

* 购物篮分析:通过分析顾客购物篮中商品之间的关联可以挖掘顾客的购物习惯,从而帮助零售商更好地制定有针对性的营销策略。

* 现单词之间的并发关系及Web的使用模式等,这些都是Web数据挖掘、搜索及推荐的基础。

回归分析
分类

多元线性回归:

主要描述一个因变量如何随着一批自变量的变化而变化

* 回归方程:是因变量与自变量关系的数据反映。

* 因变量的变化包括两部分:系统性变化(由自变量引起的)与随机变化(不能由自变量解释的,通常也被称作残值)

* 最常用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。

逻辑斯蒂回归:在数据化运营中更多使用的是逻辑斯蒂回归,它包括响应预测分类划分等内容。

大数据分析方法

概念

* 理论基础是数据挖掘和分布式计算原理。

* 大数据技术要解决两个重要的现实问题:

  一是要解决海量数据在多台计算机上的存储;

  二是要解决如何对多台机器上存储的数据进行分析。

* 大数据技术的基本原理还是聚类、分类、主题推荐等数据挖掘的内容,在基于大数据的数据分析方法中,有很多方法都是对原有数据挖掘算法的改造,将原来的单机计算改成多台机器同时计算。

* 不能使用SPSS、SAS等单机数据分析工具来完成,其分析工具一般都需要具备分布式计算的能力,如 Hadoop。

Mahout
概念

* 大数据分析的利器

* 是Apache SoftwareFoundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便、快捷地创建智能应用程序。

* 和HDFS配合,实现在主题推荐聚类和分类等领域中的大数据分析。

* 使用ApacheHadoop库,Mahout可以有效地扩展到云中。

Spark
概念

* 是Apache 基金会的开源项目

* Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop100倍的运算速度。

* Spark不能用于处理需要长期保存的数据。

Storm
概念

* 实时大数据处理工具

* 它在Hadoop的基础上提供了实时运算的特性,可以实时地处理大数据流。

* Storm不进行数据的收集和存储工作,它直接通过网络实时地接收数据并且实时地处理数据,然后直接通过网络实时地传回结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值