数据挖掘算法

方差分析

在实际生活中,人们往往通过试验来了解各种因素对诸如产品销量、产品产量、产品质量等指标的影响,不仅如此,还要在各种因素中找出显著的因素以及这些因素在什么状态(水平)对改变产品质量,增加产品产量、产品销量最有利,从而选出最优的因素水平,为此,首先设计一个合适的实验方案,按照该实验方案进行试验,然后对试验结果进行分析,方差分析就是解决这项工作的有效方法。方差分析按照影响试验指标的个数分为单因素方差分析、双因素方差分析和多因素方差分析。

方差分析就是要分析控制变量的不同水平是否对观察变量产生了显著影响。如果控制变量的不同水平对实验结果产生了显著影响,那么他和随机变量共同作用必然使得观察变量数据有显著变动;相反,如果控制变量的不同水平对实验结果没有产生显著影响,那么,观察变量数据的变动就不会明显表现出来,他的变动可以归结为受随机变量影响造成的。

单因素方差分析实质也采用了统计推断的方法,其目的是通过实验数据(样本数据)研究观察变量中的若干个不同水平下,其各个总体在分布上是否存在显著差异。

多因素方差分析既要分析多个控制变量独立作用对观察变量的影响,又要分析多个控制变量交互作用对观察变量的影响和其他随机因素对观察变量的影响,因此,它将观察变量总的变差平方和分解成多个控制变量单独作用引起的、由多个控制变量交互影响引起的、由其他随机因素引起的等三部分。以分析控制变量各水平的交互作用对观察变量均值有没有产生显著影响。

无论单因素方差分析还是多因素方差分析,它们都有一个共同的特点就是控制变量的各个水平是人为可以控制的。但在许多实际问题中,有些因素的不同水平难以人为控制,但它们确确实实对观察变量产生较为显著的影响。在方差分析中,如果忽略这些因素的存在而单纯去分析其他因素对观察变量的影响,往往会夸大或缩小这些因素的影响作用,使得分析结论不准确。

为了更加准确地研究控制变量不同水平对观察变量的影响,应尽量排除其他能够排除的因素对分析的影响作用。

协方差分析是将那些很难控制的因素作为协变量,在排除协变量影响的条件下,分析控制变量对观察变量的影响,从而更加准确地对控制因素进行评价。

回归分析

相关分析以现象之间是否相关、相关的方向和密切程度等为主要研究内容,它一般不区分自变量与因变量,对各变量的构成形式也不涉及。其主要分析方法有绘制相关图、计算相关系数和检验相关系数。回归分析包括对现象间具体的相关形式的分析,在回归分析中根据研究的目的,应区分出自变量和因变量,并研究确定自变量和因变量之间的具体关系的方程式。回归分析是将相关的因数进行测定,确定其因果关系,并以数学模型来表示其具体关系式,从而进行的各类统计分析。分析中所形成的这种关系式称为回归模型,其中以一条直线方程表示两变量相关关系的模型叫一元线性回归模型;以曲线方程表示两变量相关关系的模型叫曲线回归模型。

线性回归分析是侧重考虑变量之间的数量变化规律,并通过一定的数学表达式,即回归方程,来描述这种关系,进而确定一个或几个变量之间的变化对另一个变量的影响程度,为预测提供科学的数学依据。

相关分析

相关分析就是一种测度事物间统计关系强弱的一种手段和工具,旨在衡量事物之间,或称变量之间线性相关程度的强弱。

在所有的相关分析中,最简单的是两个因素之间的线性相关,它只涉及一个自变量和一个因变量。而且自变量数值发生随之发生大致均等的变动,从平面图上观察其各点的分布近似地表现为一直线,这种相关关系被称为直线相关(也叫线性相关)。

线性相关分析是用相关系数来表示两个变量间相互的直线关系,并判断其密切程度的统计方法。

在线性相关分析中,两个变量X和Y的值总是成对的出现的,形成直角坐标系中的一个点。根据这些点在直角坐标系的位置及紧密程度,可以判断两个变量的相关情况:正相关,负相关,无相关,非线性相关。

ABC分类分析

ABC分类法:又称重点管理法、帕累托分析法,是根据事物在技术经济方面的主要特征,进行分类排队,分清重点和一般,从而有区别地确定管理方式的一种分析方法。

ABC分析法就是用于从众多任务中选择有限数量的任务以取得显著的整体效果的分析方法。它使用了帕累托法则,即关于做20%的事可以产生整个工作80%的效果的法则。一个系统中,少数事物具有决定性的影响。相反,其余的绝大部分事物却不太有影响。很明显,如果将有限的力量主要(重点)用于解决这具有决定性影响的少数事物上,和将有限力量平均分摊在全部事物上。两者比较,当然是前者可以取得较好的成效,而后者成效较差。ABC分析便是在这一思想的指导下,通过分析,将“关键的少数”找出来,并确定与之适应的管理方法,这便形成了要进行重点管理的A类事物。这就能够以“一倍的努力取得7—8倍的效果”。

聚类分析

聚类分析正是统计学中研究“物以类聚”问题的一种方法,它属于多元统计分析的范畴。

聚类分析实质是一种建立分类的方法,他能够将一批样本数据(或变量)按照它们在性质上的亲疏程度在没有先验知识的情况下进行分类。这里,一个类就是一个具有相似性的个体的集合,不同类之间有明显的非相似性。在分类过程中,人们不必实现给出一个分类标准,聚类分析能够从样本数据出发,客观地决定分类标准。

聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类。

快速聚类法

快速聚类法先将样品粗略地分一下类,然后再按照某中原则进行修正,直到分类比较合理为止。快速聚类的过程大致可由下图表示。理论研究及计算实践都表明,快速聚类法是快速有效的聚类方法。

时间序列分析

时间序列是按时间顺序排列的,随时间变化且相互关联的数据序列。这样的例子在工程,经济等各个领域都广泛存在,而分析时间序列的方法构成数据分析的一个重要领域,即时间序列分析。时间序列分析法是依据预测对象过去的统计数据,找到其随时间变化的规律,建立时序模型,以推断未来数值的预测方法。其基本设想是:过去变化规律会持续到未来,即未来是过去的延伸。

时间序列通常含有三大特性:趋势性,季节性与随机性。

进度分析

进度分析是通过图形的方式将计划完成情况反映出来,如将生产的计划完成情况反映出来,以便随时掌握工业生产进度。

指标关联分析

根据指标的相关性,分析指标相互影响程度。以杜邦分析为例,可以变动树节点的任一个指标,其他相关指标随着变化,从而可以确定对关键指标的影响程度。

预警分析

预警分析是根据经济运行数据和事前制定的指标阀值,做出预警分析,为对生产经营及时提供预警信号。它将异常的数据从大量纷繁的数据当中及时挑出来,大大提高了我们数据处理的及时性和工作的有效性。

通过对每个指标设置临界值,每个临界值对应不同颜色,若指标超过临界值,则以不同的颜色显示出来,进行预警分析,提请分析人员注意。对告警监控的结果数据提供多种分析手段,发现告警数据背后的更深层次信息。提供告警规则集的定制功能,在更高的逻辑层次上封装多条告警规则,实现更复杂的告警条件组合。

我们也常用仪表盘展示关键指标分析,用指针和刻度表示指标是否在正常范围,如生产废品率。该方法常用于构造管理驾驶舱,方便领导快速掌握关键指标运行情况。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值