时序预测遇到的问题以及处理

三次指数平滑

回归问题

Xgboost
随机森林
神经网络
svr

滞后阶 

自回归 加 协变量

离散值 定性变量
虚拟数据

短时间内线性差值 前一天后一天
二次曲线插值附近几天数据插值

离散 近邻替换

节假日 换成虚拟变量
促销 虚拟变量 重要程度 
天气
消费指数


定性变量
定序变量

贾俊平 统计学

异常值
有些值,可以人为加阈值
比如工资档次 大于一万全部设为一万
标准化会有问题
还会影响整个模型的稳定性


均值回归
比如最小二乘法  损失函数 误差平方和最小

分位数回归
0.9分位数
损失函数和分位数相关
关注极端情况数据
比如穷人和富人 和大家
促销和平常

特征筛选
自己构思一些变量

方差膨胀因子
多重贡献性
变量之间的相互解释

变量特别多的降维
pca
变成公共因子,可以再分析是什么东西组成的
比如用很多财务指标可能可以去掉共线性

普通回归和时间序列模型
看什么因子比较重要
看回归p值 只看显著性
系数的大小越大特征越有用 解释程度


1机器学习的模型
黑箱 随机森林有贡献度

2深度学习
LSTM
CNN


预测值RMSE MSE MAE MAPE

 

虚拟变量

定义

  在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。

  由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。

对模型的意义

  通常,我们假设的因变量与自变量之间的关系既是线性的,又是可以叠加,如果这些假设条件被违背,参数估计将发生偏差。 
  将连续变量分成不同组表并用一套虚拟变量来表达,这不仅有助于检查这一变量的非线性模式,还提供在非线性关系存在条件下的无偏参数估计,这实际上是在建立回归模型时对方非线性关系的一个常用的方法。

如何设置

  虚拟变量通常是对无序分类资料而言。在线性回归中,如果自变量中有分类变量,那么一定要事先把这些分类变量事先重新编码,生成多个二分类虚拟变量

在模型中引入多个虚拟变量时,虚拟变量的个数应按下列原则确定: 
(1)如果回归模型有截距项 
有m种互斥的属性类型,在模型中引入(m-1)个虚拟变量。 
(2)如果回归模型无截距项,有m个特征,设置m个虚拟变量 
虚拟变量在计算广告和信用评分中很常用。

例子

假如现有4个省份,分别是山西,山西,江苏,江西,要纳入到模型中。

  理解虚拟变量的真正含义:是要体现出不同省份之间的差异,而并不是所谓的控制变量。而其要充分理解多元线性回归当中参数估计量的真正含义:是偏回归系数,即自变量的边际量,表明了在其他条件不变的情况下,自变量每增加一个单位因变量的变化。 
  如果按照你的理解假设X为地区变量,X的取值为1代表山西;2代表陕西;3代表江苏;4代表江西,那么回归完了以后如何来解释X前面的参数:X前面的参数表示X每增加一个单位因变量增加多少,而此时按照X的取值,陕西和山西之间相差一个单位,陕西和江苏之间也是差一个单位、江苏和江西之间也差一个单位,那么这个系数究竟是说明陕西和山西之间的差别呢?还是陕西和江苏还是江苏和江西之间的差别呢?这显然无法解释。还有X前面的回归参数是一个常数,那么就是说陕西和山西、陕西和江苏、江苏和江西之间因变量的差异是相同的,这显然是不合理的。 
  要把四个省份用数值区分开来,用1,2,3,4呢?那用10,20,30,40也可以,那样的话参数估计量就更没法解释。所以,虚拟变量的定义一定是按照1和0来定义,即是就等于1,不是就等于0,比如,假设模型中有常数项,那么可以定义3个虚拟变量,D1为陕西(是陕西D1=1,不是陕西D1=0);D2为江苏(是江苏D2=1,不是江苏D2=0);D3为江西(是江西D3=1,不是江西D3=0),那么山西呢?如果D1,D2,D3都同时为0,肯定就是山西了,这样回归之后D1前面的参数表明了陕西与山之间的差别;D2前面的参数表明了江苏与山西之间的差异;D3前面的参数表明了江西与山西之间的差异,参数的经济意义非常明确。从深层次上讲虚拟变量模型实际上是解决了方差分析只能说明不同省份之间有无差异,而不能说明不同省份之间的这种差异究竟有多大的问题

 

 

参考资料

https://blog.csdn.net/everlasting_188/article/details/52124041

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值