常用预测类分析方法汇总整理

本文将介绍一些常见的预测类数据分析方法,帮助大家了解它们的原理和适用范围。我们将探讨时间序列类预测方法,如指数平滑法和灰色预测模型;回归类预测方法,包括线性回归、logistic回归、非线性回归等,它们通过建立数学模型来预测数值结果;机器学习类预测方法,如决策树、随机森林和神经网络等,它们通过学习数据的模式和关联性来进行预测;还有一些其他的预测方法如马尔可夫预测、ROC曲线等。

一、时间序列数据预测

时间序列数据是按照时间顺序排列的数据集合,例如每天的销售量、每月的股票价格等。预测时间序列数据可以帮助我们了解未来的趋势和模式,从而做出更准确的决策。

比较常用的时间序列数据预测方法有以下几种。

接下来,将逐个进行说明。

1、指数平滑法

常用于数据序列较少时使用,且一般只适用于中短期预测。对于长期趋势或复杂非线性关系的数据可能表现不佳。

指数平滑可以继续拆分为一次平滑、二次平滑、三次平滑;一次平滑法为历史数据的加权预测,二次平滑法适用于具有一定线性趋势的数据,三次平滑法适用于具有一定曲线关系时使用。如果不设置平滑方法,SPSSAU将自动运行三种平滑方法,选择最优效果时对应的平滑方法。
指数平滑法中,初始值S0和平滑系数alpha是两个参数,用于确定预测模型的初始状态和对过去观察值的权重。说明如下表:

SPSSAU进行指数平滑法操作如下:

2、灰色预测模型

灰色预测模型可针对数量非常少(比如仅4个),数据完整性和可靠性较低的数据序列进行有效预测。

其利用微分方程来充分挖掘数据的本质,建模所需信息少,精度较高,运算简便,易于检验,也不用考虑分布规律或变化趋势等。但灰色预测模型一般只适用于短期数据、有一定指数增长趋势的数据进行预测,不建议进行长期预测。

SPSSAU进行灰色预测模型操作如下:

3ARIMA预测

ARIMA模型是最常见的时间序列预测分析方法,适用于平稳时间序列数据。它包括三个部分:自回归(AR)、差分(I)和移动平均(MA)。

SPSSAU可以智能地找出最佳的AR模型,I即差分值和MA模型,并且最终给出最佳模型预测结果。当然,研究人员也可以自行设置自回归阶数p,差分阶数d值和移动平均阶数q,然后进行模型构建。

具体来说,ARIMA模型有以下几个参数:

SPSSAU进行ARIMA预测操作如下:

4、季节Sarima模型

季节Sarima模型是ARIMA模型的一种扩展,用于处理具有明显季节性变化的时间序列数据。与ARIMA模型类似,季节ARIMA模型包括自回归(AR)、差分(I)和移动平均(MA)的组合。

SPSSAU可以智能地找出最佳的AR模型,I即差分值和MA模型,并且最终给出最佳模型预测结果。当然,研究人员也可以自行设置参数进行手工建模。
具体来说,季节ARIMA模型有以下几个参数:


SPSSAU进行季节Sarima预测操作如下:

5、VAR模型

在时间序列进行预测时, ARIMA可用于单一变量(比如GDP增长率)的预测,如果需要同时考虑多个变量的预测时(比如GDP增长率、失业率、储蓄率),此时可以使用VAR模型进行多变量预测。
VAR模型的构建流程较为复杂,如下图所述:

上述分析步骤和流程仅供参考使用,实际研究中可能仅需要其中一部分的分析即可。比如很多时候并不需要关注残差自相关检验和残差正态性检验,也或者有时对格兰杰因果检验关注度较少等,具体以研究者实际研究情况为准即可。

PSSAU进行VAR模型操作如下:

二、回归分析方法预测

回归分析是一种常用的统计方法,用于建立变量间的关系模型,并通过该模型对未知数据进行预测。以下是一些典型的回归分析方法,可用于预测:

接下来,将逐个进行说明。

1、线性回归

线性回归分析常用于预测数值型数据。它基于自变量与因变量之间的线性关系建立模型,并利用该模型对未知的因变量进行预测。

2、logistic回归

logistic回归分析常用于预测分类变量数据。logistic回归又可细分为以下三种:二元logistic回归、有序logistic回归和多分类logistic回归。对比说明如下:

3、非线性回归

非线性回归分析可以用于预测具有非线性关系的数据。与线性回归不同,非线性回归使用非线性方程来拟合数据。

比如人口学增长模型Logistic(S模型),其模式公式为:y = b1 / (1 + exp(b2 + b3 * x)),诸如此类非线性关系(即不是直接关系)的非线性模型,可使用非线性回归进行研究。SPSSAU当前提供约50类非线性函数表达式,涵盖绝大多数非线性函数表达式。
SPSSAU非线性回归操作如下:

4、Possion回归

Possion回归是一种广义线性模型,通常用于预测因变量为计数型数据中事件发生的次数。它基于Possion分布假设,将因变量视为服从Possion分布的随机变量,并建立与自变量相关的线性关系来预测事件发生的次数。

Poisson分布数据一定是指每单位内的发生频数,比如某个路口每天闯红灯的汽车数量;一年内每万人中丢手机的频数等。

5、其他

除了上述介绍的4种类型回归,日常研究中我们所用到的绝大多数回归分析都可以进行预测。比如岭回归、lasso回归、负二项回归、主成分回归等等。有关其他回归方法的说明可以登陆SPSSAU查看各个分析方法的说明。

三、机器学习预测

机器学习是一种强大的技术,用于从数据中学习模式和规律,并利用这些知识进行预测。通过训练算法来自动发现数据中的模式,并根据这些模式进行未知样本的预测。
常用方法及说明如下:

有关六类机器学习算法说明,上周已经写过详细介绍,在此不再进行赘述。可点击下方文章进行学习:六种机器学习算法大揭秘:从决策树到神经网络,小白也能轻松掌握!

四、其他

除了以上3大类预测方法,还有两种比较特殊的预测分析方法,马尔可夫预测和ROC曲线。

1、马尔可夫预测

马尔可夫预测是一种基于马尔可夫链的预测方法。马尔可夫链是一个随机过程,具有马尔可夫性质,即未来状态的概率只取决于当前状态,与过去状态无关。马尔可夫预测利用这种性质来进行未来事件的预测。

马尔可夫预测涉及3个术语名词,如下说明:

SPSSAU马尔可夫预测操作如下:

2、ROC曲线

与上述预测类分析方法不同,ROC曲线并不能直接用于进行预测,而是用于研究XY的预测准确率情况

ROC曲线是一种评估分类模型性能的工具,它通过绘制分类器在不同阈值下的真阳性率(TPR)和假阳性率(FPR)之间的关系来展示模型的质量。ROC曲线的形状可以帮助我们理解模型在不同阈值下的表现,但它本身并不提供具体的预测结果。

ROC曲线如下图:

曲线越往左上角说明预测准确率越高;曲线越往左上角说明曲线下面积越大,即AUC值越大说明预测准确率越高。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
浅谈数据分析 2015/7/8 内容 数据分析定义 数据分析的要求 数据分析步骤及介绍 2 为什么需要数据分析? 3 什么是数据分析? 4 定义: 数据分析是指用适当的统计方法对收集来的大量数据进行分 析,将它们加以汇总和理解并消化,以求最大化地开放数据 的功能,发挥数据作用。数据分析是为了提取有用信息和形 成结论而对数据加以详细研究和概括总结的过程。 已经发生的事情 为什么发生? 预测未来将会 发生什么? 5 数据分析的作用 现状分析 原因分析 预测分析 数据分析师的要求 6 7 数据分析的要求 坚持用数据说话 有目的地收集数据 掌握数据的来源 认真整理数据 数据分析误区 分析目的不明确,为分析而分析 缺乏业务知识,分析结果偏离实际 一味追求使用高级分析方法,热衷研究模型 8 几个常用指标和术语 数据分析: 平均数 绝对数和相对数 百分比和百分点 频数和频率 比例和比率 倍数和番数 同比和环比 统计基本术语: 总体和样本 样本平均值 样本中位数 样本方差 样本标准偏差 样本极差 9 10 数据分析步骤 1. 分析框架(Mind Manager) 2. 数据收集 3. 数据处理(Ultra Edit) 4. 数据分析(Excel, SPSS, Minitab) 5. 数据展现(PPT, 水晶易表) 6. 报告撰写 一般的数据分析,用Excel即可完成,高级的数据分析, 可以使用专业分析软件SPSS,Minitab等。 1.确定数据分析思路 构建你的分析框架,用一定的逻辑框架将大问 题拆成小问题,无框架不成体系 使用数据分析方法论 11 方法论 说明 使用范围 PEST Political, Economic, Social, Technological 行业分析 4P Product, Price, Place(渠道), Promotion 公司整体经营情况分析 逻辑树 (树状图) 将问题分层罗列,逐步向下展开 业务问题专题分析 用户使用 行为 认知 熟悉 试用 使用 忠诚 发现用户访问网站的规律, 为进一步修正或重新制定 网络营销策略提供依据 5W2H Why, What, Who, When, Where How, How much 用途广泛 12 2.数据收集 KANO模型 13 2.数据收集 2.数据收集 卡诺模型问卷编制:正、反两面的卡诺问题模式 例如:在探讨餐厅客户等候座位时的美甲服务这 一功能点时,可以正向和反向地询问用户对美甲 服务这项功能的评价。 如果有这项服务: 1我很喜欢 2理所应当3无所谓4勉强接受5很不喜欢 如果没有这项服务: 1我很喜欢 2理所应当3无所谓4勉强接受5很不喜欢 14 2.数据收集 应用卡诺二维属性归方法对数据进行整理 将相同维度的比例相加后,可得到各个属性维度的占比总 和,总和最大的一个属性维度,便是该功能的属性归属。 15 3.数据处理 3.1数据清洗 数据有多余、重复、空白的 数据出错(异常数据) 3.2数据加工 数据的组织格式或字段的再加工,得到适用 于分析的内容格式 16 4.数据分析 常见分析方法 17 描述性 数据分析 对 比 分 析 法 分 组 分 析 法 结 构 分 析 法 平 均 分 析 法 交 叉 分 析 法 矩 阵 关 联 分 法 综 合 评 价 分 析 法 探索性 数据分析 相 关 分 析 回 归 分 析 因 子 分 析 聚 分 析 对 应 分 析 判 别 分 析 验证性 数据分析 参 数 估 计 假 设 检 验 …… 数据分析 经常使用,需要熟练掌握 较少使用,按需要深入了解 4.数据分析 18 对比分析法 分组分析法 与目标对比,同级别对比,前后对 比等 分组的目的在于便于对比,分组法必 须与对比法结合起来 比如:地区收入对比 结构分析法 平均分析法 某部分数值占总体的比率,如市场 占有率 计算平均数来反映总体在一定时间、 地点条件下的对比。比如平均营业收 入,平均身高,与对比分析结合使用。 4.数据分析 19 交叉分析法 综合评价分析法 将两个有一定联系的变量及其值交 叉排在一张表内,即二维交叉表 将多个指标转化为一个能够反映综合 情况的指标进行评价 比如: Y=ax 1 +bx 2 +cx 3 +dx 4 +… 矩阵关联分法 漏斗图 根据事物(产品,服务等)的两个重 要属性(指标)作为分析的依据,进 行分关联分析,也叫象限分析法 适合业务流程比较规范,周期比较长, 各流程环节涉及复杂业务过程。 相关分析 世界是一个普遍联系的有机整体,现象之间 客观上存在着某种有机联系,一种现象的发 展变化必然受与之相联系的其他现象发展变 化的制约与影响。在统计学中,这种依存关 系可以分成相关关系和回归函数关系两大。 20 相关分析 相关关系是指现象之间存在的

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值