![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析算法
华仔宝宝
这个作者很懒,什么都没留下…
展开
-
大数据、数据分析、数据挖掘的差别
在大数据领域里,经常会看到例如数据挖掘、OLAP、数据分析等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和差别。大讲台老师通过一些大数据在高校应用的例子,来为大家说明白—数据挖掘、大数据、OLAP、数据统计的区别。(一)数据分析数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。从数据本身的复杂程度、以及对数...原创 2020-03-26 08:13:15 · 153 阅读 · 0 评论 -
FRM模型
根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:最近一次消费(Recency) 消费频率(Frequency) 消费金额(Monetary)最近一次消费 最近一次消费意指上一次购买的时候——顾客上一次是几时来店里、上一次根据哪本邮购目录购买东西、什么时候买的车,或在你的超市买早餐最近的一次是什么时候。理...原创 2020-03-25 13:55:33 · 1359 阅读 · 0 评论 -
决策树分类
一、简介决策树分类算法(decision tree)通过树状结构对具有某特征属性的样本进行分类。其典型算法包括ID3算法、C4.5算法、C5.0算法、CART算法等。每一个决策树包括根节点(root node),内部 节点(internal node)以及叶子节点(leaf node)。根节点:表示第一个特征属性,只有出边没有入边,通常用矩形框表示。内部节点:表示特征属...原创 2020-03-26 08:11:08 · 168 阅读 · 0 评论 -
ARIMA模型
自回归滑动平均模型(ARMA 模型,Auto-Regressive and Moving Average Model)是研究时间序列的重要方法,由自回归模型(简称AR模型)与滑动平均模型(简称MA模型)为基础“混合”构成。在市场研究中常用于长期追踪资料的研究,如:Panel研究中,用于消费行为模式变迁研究;在零售研究中,用于具有季节变动特征的销售量、市场规模的预测等。基本原理将预测指标随时...原创 2020-03-25 14:23:57 · 467 阅读 · 0 评论 -
时间序列分解法
时间序列分解法是数年来一直非常有用的方法,这种方法包括谱分析、时间序列分析和傅立叶级数分析等。时间序列分解模型:时间序列y可以表示为以上四个因素的函数,即:Yt=f(Tt,St,Ct,It) 时间序列分解的方法有很多,较常用的模型有加法模型和乘法模型。 加法模型为:Yt=Tt+St+Ct+It 乘法模型为:Yt = Tt ×St ×Ct ×I...原创 2020-03-26 08:12:34 · 1205 阅读 · 0 评论 -
AR模型和线性预测的关系
设x(n)在n时刻之前的p个数据已知,我们希望利用这p个数据来预测n时刻的值x(n),预测的方法很多,我们用线性预测来实现,是真实值x(n)的预测,那么有:令真实值和预测值之间的误差是e(n),则有:因此,总的预测误差功率为:为了(20)达到最小,应该是x(n-p)……x(n-1)和预测误差序列e(n)正交<参看《数字信号处理程序》胡光p531>,即:由...原创 2020-03-26 08:10:13 · 1403 阅读 · 0 评论 -
聚类分析Kmean
1、聚类的使用1)事先不知道样本的类别,甚至不知道需要得出的类别个数。2)样本类别之间有差异性,分类结果能很好地解释预期现象。3)一般用于数据探索,比如发现群组和离群点检测,还可以作为其他算法的预处理步骤。2、样本选择:很多教程都告诉我们基于划分方法的聚类多适用于中等体量的数据集,但我们也不知道“中等”到底有多“中”。通常认为记录数量一般没有限制,与实际应用有关,但样本中记录个数一般要大...原创 2020-03-24 21:50:45 · 807 阅读 · 0 评论 -
聚类分析
聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为...原创 2020-03-25 13:52:26 · 833 阅读 · 0 评论 -
线性回归模型
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。线性回归(L...原创 2020-03-25 13:37:46 · 1690 阅读 · 0 评论 -
相关和回归分析
标准化正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。正态曲线呈钟型,两头低,中间高,左右对...原创 2020-03-25 13:12:04 · 345 阅读 · 0 评论 -
主成分和因子分析的区别
1. 原理不同: 主成分分析(Principal components analysis,PCA)基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。...原创 2020-03-25 14:11:00 · 615 阅读 · 0 评论 -
主成分分析法
什么是主成分分析法 主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。 在统计学中,主成分分析(principal components analysis,PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主...原创 2020-03-26 08:07:44 · 481 阅读 · 0 评论 -
因子分析
主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。在多变量分析中,某些变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?因子分析法(Factor Analysis)就是寻找这些公共因子的模型析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与...原创 2020-03-25 14:46:33 · 181 阅读 · 0 评论 -
方差分析
一、方差分析原理1. 方差分析概述方差分析可用来研究多个分组的均值有无差异,其中分组是按影响因素的不同水平值组合进行划分的。方差分析,是用来检验两个或两个以上均值间差别显著性(影响观察结果的因素:原因变量(列变量)的个数大于2,或分组变量(行变量)的个数大于1)。一元时常用F检验(也称一元方差分析),多元时用多元方差分析(最常用Wilks’∧检验)。方差分析可用于:(1)完全随...原创 2020-03-26 08:09:53 · 214 阅读 · 0 评论 -
算法适用条件和优缺点
监督学习监督学习中,输入变量与输出变量可以是连续的,也可以是离散的。若输入变量与输出变量均为连续变量,则称为回归;输出变量为有限个离散变量,则称为分类;输入变量与输出变量均为变量序列,则称为标注。KNN算法:有监督的机器学习算法,可用于估计分类变量和连续变量,是一种用于分类和回归的非参数方法。在使用knn进行分类前,要先对数据通过归一化来进行无量纲处理。优点:(1)简单,易于理解,易于实...原创 2020-03-24 22:14:19 · 984 阅读 · 0 评论 -
平稳性、正态分布、白噪声和方差齐性
平稳性时间序列平稳性的定义现象:始终在一常值附近随机波动,波动范围有限,且无明显趋势及周期特征。假定某个时间序列由某一随机过程(stochastic process)生成,即假定时间序列{Xt}(t=1, 2, …)的每一个数值都是从一个概率分布中随机得到的。如果经由该随机过程所生成的时间序列满足下列条件:均值E(Xt)=m是与时间t 无关的...原创 2020-03-25 14:41:18 · 2227 阅读 · 0 评论 -
较常使用的分析方式
1.主成分分析主成分分析主要是一种探索性的技术,在分析者进行多元数据分析之前,用他来分析数据,让自己对数据有一个大致的了解,这是非常有必要的。主成分分析一般很少单独使用:a、了解数据。(screening the data),b、和cluster analysis(聚类分析)一起使用,c、和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成分对变量简...原创 2020-03-25 14:51:17 · 172 阅读 · 0 评论