数据分析 - 预测模型（学习笔记）

corina_qin

已于 2022-03-05 20:01:57 修改

阅读量1.4w

点赞数 10

分类专栏：分析方法文章标签：数据分析

于 2022-02-21 22:30:39 首次发布

本文链接：https://blog.csdn.net/m0_65392155/article/details/123055326

版权

分析方法专栏收录该内容

19 篇文章 12 订阅

订阅专栏

快速预测的方法，只用excel就能搞掂哦。大部分日常工作的预测，都是基于连续几个数据，比如：

有今年1-5月销量，问6月销量咋样？
有最近10周的新增用户，问第11周有多少？
有过去30天的业绩，问今天业绩如何？

这种预测有个专业名词：时间序列预测。

常见的数据走势有三种：

趋势型：连续发展的态势。（增长趋势／降低趋势）
躺平型：变动较少，一条直线。
周期型：有规律的周期性波动。

1.趋势型

这里简单解释一下公式公式里Y就是要预测的用户量数据（因变量），X是自变量，也就是时间，X平方就是时间*时间，对应关系如下：

其实，趋势线拟合的原理，就是假设数据随着时间变化而变化。因此因变量是数据指标，而自变量就是时间，以及时间的各种形态，比如时间的平方、对数、指数等等。

在实验这个方法的时候，会发现：很有可能好几种趋势线预测出来的结果，R平方都是接近1的，这时候该怎么选呢？可以计算平均平方差（MSE），哪个方法的MSE数值小，就用哪个。

明显，2次拟合的MSE值更小，就用这个啦。

2.躺平型

可以用平均值来做预测值。还有专门的方法叫：移动平均值法，即把近N期的数据平均值，作为预测值。高大上一点的叫指数平滑法来预测。

阻尼系数是一个0到1之间数字，可以简单理解成：

阻尼越大，真实值权重越小，即历史情况参照意义越小；
阻尼越小，真实值权重越大，即历史情况参照意义越大。

看图说话，阻尼系数0.8的时候MSE值最小，就它了，搞掂！

3.周期型／季节型

店铺业绩受双11、双12大促影响明显，4季度是旺季。这种走势也不能直接用趋势线来模拟，模拟出的趋势线R平方只有0.0几，完全不能用。但是，可以通过一个小技巧，把这个数据改造成可以用趋势线模拟的形式。

第一步：先对数据做改造。改造方法如下图，通过数据处理，模拟出季节变化趋势，这种方法叫：季节多元回归。

第二步：进行回归分析。既然叫季节多元回归，自然要调用回归分析，在同样的路径：数据→数据分析里，找到回归分析方法，然后输入参数：

第三步：解读分析数据。对大部分非数据分析专业的小伙伴，只要看几个关键数字就好了。

从结果上看：

R平方0.93，很好；
各个参数的P值，除了X1以外都很小，很好。

所以模型可用。还可以把X1：时间这个变量去掉。时间变量代表了长期发展趋势，本身这个数据几个周期也没有很大长期增长，所以去掉也是情理之中的。另外，做出来的模型为啥系数都是负的，真的没问题吗。没有，注意这个数据本身就是Q4数值很大，那Q1、Q2、Q3的参数肯定就是负的了。想预测下个季度，可以增加一行：2021年1季度，对应的参数，t是21，Q1=1，Q2、Q3都是0，然后代入公式即可。

总结

这种趋势拟合（又叫趋势外推），是解决趋势型预测的非常快捷的方法。

其优点，包括：

需要的数据少，几个数也能预测。
能模拟曲线走势，不会出现方向性错误。
是个模型，充分满足领导对建模的憧憬但缺点也是很明显的。

领导一句话就能把它打败：“那你所说，这预测的134万用户，到底是哪些渠道做出来的？”

很遗憾，完全说不了。因为模型只是模拟了曲线的走势，并不能解释走势是怎么来的。

用数据分析的专业术语，叫：业务可解释程度差。这种可解释性差，有时候会引发很严重的问题。

比如小伙伴们看回上一张图，虽然2次拟合的MSE值更小，但是这个预测结果明显有问题：本来是连续10个月上涨，这个月居然变成下跌了！

很有可能引发领导连珠炮似的问题：

为什么会下跌？
是新增少还是流失多？
运营不给力还是产品体验差？
需要短期拉动还是长期拐点到了？

更加遗憾的是，模型本身更解释不了这些。

所以聪（jiao）明（hua）的小伙伴，会果断放弃二次拟合的结果，用线性拟合的结果。

因为这样更符合领导预期（少被人喷）。

那如果领导一定要解释到底新增的是从哪些渠道来的。该怎么办呢？这时候可以利用杜邦分析法，对用户量指标做拆解（如下图）。

拆解完以后，我们一个个去找对应渠道负责的同学问：

亲，这个A渠道，你们6月份还做不做？
亲，如果做A渠道的话，你们准备投多少？
亲，A渠道过去转化率为x%，你们准备做优化不？

问了一堆问题以后，把收集到的信息，做一张汇总表，把下个月为什么是这么多人，解释得明明白白（如下图）。

这就是大名鼎鼎的业务预测模型，这种预测模型的可解释程度就高多了，可以明明白白地讲清楚：

增长来自哪里
为什么增长这么多
如果不达标，还能做什么

但是这样的缺点也是很明显的：

它没有让人看不懂的算法，显得不厉害
需要运营的大量输入，而运营不见得想说话
即使运营想说，也有可能在拍脑袋，很有可能拍得不准所以呢，世上没有两全法，只能看情况做预测咯

另外，以上讨论的都属于基础概率预测，还有一种是活动响应预测，数据混在一起的话要要区分开。

corina_qin

关注

10
点赞
踩
134

收藏

觉得还不错? 一键收藏
0
评论
数据分析 - 预测模型（学习笔记）

快速预测的方法，只用excel就能搞掂哦。大部分日常工作的预测，都是基于连续几个数据，比如：有今年1-5月销量，问6月销量咋样？有最近10周的新增用户，问第11周有多少？有过去30天的业绩，问今天业绩如何？这种预测有个专业名词：时间序列预测。常见的数据走势有三种：趋势型：连续发展的态势。（增长趋势／降低趋势）躺平型：变动较少，一条直线。周期型：有规律的周期性波动。1.趋势型这里简单解释一下公式公式里Y就是要预测的用户量数据（因变量），X是自变量...
复制链接

扫一扫

专栏目录