数据挖掘之预测篇

本文作为数据挖掘技术的入门篇,部分整理,待完善,增加数据挖掘算法深入&应用等内容....

[@more@]一、数据挖掘过程
1、数据抽样
(1)从企业数据中精选用于数据挖掘的样本
(2)数据取样时要严把质量关
(3)抽样数据必须在足够范围内有代表性
(4)数据常分为训练、测试和验证数据集
2、数据探索
(1)抽样数据是否达到设想要求?
(2)有没有什么明显的规律和趋势?
(3)有没有出现从未设想过的数据状态?
(4)因素之间有什么相关性?
(5)是否有明显的组差别?
3、模式发现
(1)对问题解决的要求需进一步量化
(2)过滤不需要的记录知识的发现
(3)数据结构和内容进一步调整
4、预测建模
(1)根据数据集的特征和要实现的目标,选择合适的数据挖掘方法
5、模型评估
(1)均方误差(MSE)
(2)平均绝对误差(MAE)
(3)平方和误差(SSE)
(4)平均相对误差(MAPE)
二、数据预测
(1)短期预测
(2)中期预测
(3)长期预测
三、预测方法
(1)传统预测方法的基础是传统数学工具,代表性的方法有回归模型法、时间序列法、趋势外推法等。
现代预测方法是随着人工智能研究领域的兴起而出现的,它结合了人工智能领域的神经网络、小
波分析、模糊数学等学科的最新研究成果
三、预测应用
外推法:找出时间序列观测值中的变化规律与趋势,然后通过对这些规律或趋势的外推来确定未来的预测值,包括:
1、移动平均法(时间序列没有趋势和季节成分)
(1)适用于围绕一个稳定水平上下波动的时间序列。
(2)利用平均使各个时间点上的观测值中的随机因素互相抵消掉,以获得关于稳定水平的预测。
(3)将包括当前时刻在内的N个时间点上的观测值的平均值作为对于下一时刻的预测值(N应选择得使MSE极小化)。
2、指数平滑法(时间序列没有趋势和季节成分)
(1)改进移动平均预测模型,将计算平均值对于不同时期观测值的权数设置得不同:近期的权数较大,远期的权数较小。
(2)指数平滑的叠代算法。
3、趋势预测法(时间序列含有趋势成分)
(1)依时间变化呈现某种上升或下降的趋势,并且无明显的季节波动,又能找到一条合适的函数曲线反映这种变化趋势时,
就可以用时间t为自变量,时序数值y为因变量,建立趋势模型y=f(t)。赋予变量t所需要的值,可以得到相应时刻的
时间序列未来值。这就是趋势外推法。
(2)线性趋势预测法、对数趋势预测法、二次曲线趋势预测法、指数曲线趋势预测法。
4、季节指数法(时间序列含有季节成分)
(1)对于既含有线性(非线性)趋势成分又含有季节成分的时间序列,可对其成分进行分解,这种分解建立在以下乘法模型的基础上:
Yt=Tt*St*It
其中,Tt表示趋势成分,St表示季节成分,It表示不规则成分。由于不规则成分的不可预测,因此预测值就可表示为趋势成分和季节成分的乘积。
(2)建立季节指数模型的一般步骤如下:
第一步,计算每一季(每季度,每月等等)的季节指数St 。
第二步,用时间序列的每一个观测值除以适当的季节指数,消除季节影响。
第三步,为消除了季节影响的时间序列建立适当的趋势模型并用这个模型进行预测。
第四步,用预测值乘以季节指数,计算出最终的带季节影响的预测值。
因果法:寻找时间序列因变量观测值与自变量观测值之间的依赖关系,然后利用这种依赖关系和自变量的预计值来确定因变量的预测值。
1、回归预测法
2、神经网络预测

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/22630256/viewspace-1028803/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/22630256/viewspace-1028803/

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值