引言
今年的双十一购物节,还是一如既往的火爆,同时也是一年N度的微博大V骗粉节日。由于周末无所事事,在刷微博的过程中看到了一个大V的“有奖竞猜”活动:如果可以在11.11早上8点之前猜中双十一当天的销售额(从 2019/11/11 00:00 到 2019/11/11 23:59 之间,单位:亿人民币,保留到整数),那么就可以和一起猜中的小伙伴瓜分10000元人民币的现金奖励。我一看:哇,这不是经典的花钱买粉策略吗!我刷了刷底下的评论,发现留言数还真不少,从2000亿到3000亿猜什么数的都有,五花八门。那么身为数学系出身的我很自然的想到了一件事情:我们如何通过某些手段来提升我们猜测的准确性呢?有什么办法可以以最大的概率来获得这1万元人民币的大红包? 想到这里,突然发现我似乎距离实现一个亿小目标已经迈出了万分之一步了!
策略1:基于均匀分布的猜测策略
我们先来看一下历年数据:
Figure 1: The Tendency of Total Sale Amount on SKY-CAT on Double-11 from Year 2011 to Year 2019
年份 (年) | 销售额(亿人民币) | 较前一年增长率(%) |
---|---|---|
2011 | 52 | - |
2012 | 191 | 267 |
2013 | 350 | 83 |
2014 | 571 | 63 |
2015 | 912 | 59 |
2016 | 1207 | 32 |
2017 | 1682 | 39 |
2018 | 2135 | 27 |
2019 | ? | ? |
我首先想到的是“你刷粉丝我刷评论”策略:广撒网,多找几个号把所有数字评论一遍,就一定能中了!但是,众所周知,刷评论是一件不道德且劳民伤财的事情,我们很可能因为刷数千个评论而花掉比收益更多的成本,而且如何从别人的号那里提出这一万元奖金也是一个问题。那么我们能不能稍微缩小一点这个区间呢?
通过回顾历年双十一当天天猫的销售额数据,我们容易发现这样一个规律:每年销售额都会增加,但是每一年相比于前一年的销售额增长率都会下降(2017除外)。说白了,就是销售额逐年在涨,但是增长的速度逐年变慢。于是,我突然迸发出了一个绝妙的构想:今年的销售额很大概率会落入 【去年的销售额, 去年的销售额 x(1 + 去年销售额增长率)】这样的一个闭区间中! 这样以来,刷评论的成本被我大大降低了!
基于这一绝妙构想,我们容易计算出今年的销售值应该会满足:
Sales 2019 ∈ [ 2135 , 2711 ] \text{Sales}_{2019} \isin [2135, 2711] Sales2019∈[2135,2711]
Wow!我只需要找577个小伙伴评论把这段区间的数字挨个评论一遍就可以获得1万元大奖了!想到这里,我立马放下了手中的健怡可乐,准备联系小伙伴。
策略2:基于多元回归模型的猜测策略
但是我突然意识到:此时已经是凌晨两点了,国内刷单的都睡觉了,醒着的小伙伴别说577个了,我估计5个都没有。为了这一万块钱,看来还必须要进一步缩小预测区间。
这个时候,我灵机一动:既然谈论趋势,我身为数学建模大师,当然应该把图画出来,看看有没有什么好的数学模型可以应用?于是,我就把这些销售额连成了一条美丽的曲线:
Figure 2.1: Sales Curve versus Year
Wow! 这简直就是一条美丽的抛物线啊! 因此,我就想到了这样的一个广义线性回归模型:
Sales i = β 0 + β 1 Year i + β 1 Year i 2 + ϵ i \text{Sales}_i=\beta_0 + \beta_1\text{Year}_i + \beta_1\text{Year}^2_i+\epsilon_i Salesi=β0+β1Yeari+β1Yeari2+ϵi
不过,因为年份比较大