常见的电商场景基本上是多时间序列的,即每一个城市,每一家商铺,每一个大类商品下的每一个款特定商品都有一个自身的销量序列数据,
通常,当有多个时间序列的时候,将使用某种基于向量的模型来同时对它们进行建模。经典的ARIMA是针对单序列问题的,因此只能对特定商品的序列单独建模,显然我们不可能为成千上万的序列进行建模,而ARIMA模型的扩展模型——VARIMA(向量 ARIMA)模型,在理论上可以处理这类问题,但是实际上,这意味着需要对模型中的互相关项指定一些严格的参数限制,因为无法为每对时间序列变量处理自由参数,实际上也基本没有人会使用这类经典的模型来进行建模,抛出各类缺失值,序列长度不一的问题,很多关键的静态变量,例如城市,商铺等category数据对于销量的预测都存在着一定的贡献度,而经典的统计学时间序列模型压根无法直接处理这类静态变量。
因此,基本上我们建模的思路是,把所有的序列都合并在一起当作一个潜在的巨大的序列数据,城市、商品、商品等这类category数据作为特征入模,例如:
北京——nike专卖店——nike跑步鞋——airmax:[100,200,300,400...1000]
上海——nike奥特莱斯店——nike板鞋——XXXX:[100,200,300,400...1000]
这是量条完整的nike的商品的销量的序列数据,现在我们如果要合并两天序列数据,就要把上述数据进行切割,变成:
城市 店铺 商品 日期 销量
北京 nike专卖店 nike 跑步鞋 2020-01-01 100
.。。。。。
这样就变成常规的特征