【预测 - 00】概述:时间序列、特征设计+回归模型(持续更新...)

前言:

预测,一个很神秘的词语,根据历史信息并按照一定的方法对未来进行测算。“时间序列”、“特征设计+回归”等是预测领域的常用方法。我是预测领域的一名新手,6月份因实习需求,刚接触领域领域,以“边学边实践”的方式推动着进度。8月底实习期结束,返校后暂时不会再接触预测领域,因此现计划花几天时间整理一下相关内容,说不定明年正式工作后还会接触。

预测是一个很难的问题。当你接到一个与预测相关的需求时,首先你要充分地分析数据,然后做几个初步的结论:该需求是否可预测?不可预测的问题,我们应该做到什么程度?比如,股票预测是很多人关注的问题,但如果股票可预测,那我们就不需要那么辛苦的干苦力赚钱了。你很难去找到股票的涨幅趋势,或者说这本来就没有趋势(当然,如果你有一些内部信息,并且这些信息正好能决定股票的涨幅,这种是另外考虑)。预测难,但价值高,所以很多行业都有相关的技术人员在研究预测方面的技术。比如,电商领域,很多行业都有预测的需求,比较典型的有“服装行业”。

服装行业往往需要对未来的销量进行预测,销售预测对于运营的指导意义非常大。精确的销售预测,可以指导后端运营提前进行合理的资源匹配和优化,避免浪费或者出现瓶颈。因此,准确的预测未来一段时间的销量将对店家的供货量储备提供建设性的建议。每个行业也都有各自的特点,服装行业有“期货”和“现货”的概念,(秋冬季品类为例)期货往往需要半年以上的开发周期(工厂档期、面料、仓质检、生产),而商家下多少订单就需要进行预测,预测值的精度关系到商家会“缺多少货”或“剩多少货”。服装行业的预测精度取决于很多因素:历史数据的质量、季节性、温度、特殊日期、促销活动、用户的购买行为等等(还有很多因素)。所以,你要做好预测,是一件不容易的事情噢,但很有价值就是了(技术赋能)。

本系列内容将会围绕“时间序列”、“特征设计+回归”等方法展开。同时,也会附上一些有价值的参考链接,仅供参考。新手一枚,如有问题,还望指正 ^_^

 

时间序列 - 思维导图

时间序列概述:

时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。

时间序列:按时间顺序排列,随时间变化的数据序列。

平稳时间序列:随机过程的特征不随时间而变化。

非平稳时间序列:随机过程的特征随着时间变化;若导致非平稳的原因是确定的,可以用的方法主要有趋势拟合模型、季节调整模型、移动平均、指数平滑等方法。若导致非平稳的原因是随机的,方法主要有ARIMA(autoregressive integrated moving average)及自回归条件异方差模型等。

 

特征设计 + 回归模型:

特征设计:

特征工程是一项艰巨的任务,早期传统的机器学习非常依赖于手工特征设计的质量。后来的深度学习在一定程度上缓解了手工特征设计的局限性,并且取得了重大的突破。不幸的是,深度学习需要大量的数据进行训练,而有的领域还不存在大量的数据。所有,某些情况下,还是避免不了手工特征设计。

如下图所示,是我第一次设计的特征,也存在着一些问题。不过,大部分特征还是可以用的,存在一些获取不到的特征(如,未来60天内的温度)。

回归模型:sklearn - Regressor

AdaBoostRegressor:

RandomForestRegressor:

ExtraTreesRegressor:

GradientBoostingRegressor:

全连接神经网络:

一些相关的链接:

预测案例:

机器学习库:

时间序列模型:

  • 6
    点赞
  • 42
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值