【Predict Future Sales】用深度学习玩转销量预测

https://www.kaggle.com/c/competitive-data-science-predict-future-sales

Kaggle上发布过各种类型的数据科学比赛中,以forecast类型的比赛占比最大、单场参赛人数最多,是kaggle的金牌大户,其内容包括像预测某公司/产品未来几月的收入/销量、预测商品的目标人群、根据大数据评估预测用户的还贷风险等。

以今年的热门赛事为例,不管是创下单场参赛人数之最的Home Credit Default Risk,还是依旧进行中的Google Analytics Customer Revenue Prediction,去逛逛它们的kernels和discussion就会发现,参赛者使用的清一色都是gradient boost模型,如xgboost、GBM、lightGBM等,个别清新脱俗的会用Random Forest。大家拼的主要是DEA(Exploratory Data Analysis)和feature engineering而非模型。

这不禁让我疑惑,难道forecast类型问题只有机器学习一条路么?神经网络真的没有用武之地了么?

不是这样的。Cheng Guo和Felix Berkhahny在paper–Entity Embeddings of Categorical Variables中提到他们用一个identity embedding神经网络模型在kaggle Rossmann Store Sales比赛中取得第三名的成绩,Jeremy Howard的source code复现了这篇paper。我这篇博文就是要给你介绍这款神经网络,它只做了少量的feature engineering,就获得了惊人的效果。

Predict Future Sales / Notebook

Predict Future Sales,是kaggle上的playground比赛,是coursera上相关课程的最终大作业,如果你有兴趣也可以在项目介绍页面找到该课程。主办方提供俄罗斯1C玩具公司的销售数据,要求参赛者预测未来一个月商品的销售量。

我选择这个数据集的主要原因:

  • 它是真实的数据集,训练样本数目庞大但信息量少,可以说是简约却不简单。
  • 不需要做太多的feature engineering。

在开始分析神经网络之前,请你先到kaggle上熟悉比赛的data。

Setup

from fastai.structured import *
from fastai.column_data import *

我是用fastai library来构建训练模型的,所以需要import它们的libraries。

Data Cleaning

# https://www.kaggle.com/dlarionov/feature-engineering-xgboost

train = pd.read_csv(PATH/'sales_train.csv', low_memory=False
  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值