说是总结其实更多是教训,成绩不好。
关键词搜进来的想来学习的朋友可能要失望了。。。
参赛经历
时间: 2017.2.21~ 2017.3.14
比赛链接: IJCAI-17 口碑商家客流量预测
结果:
大概只比平均值的效果好了一点点。
比赛分析
比赛介绍
问题 Statement
预测客户流量对商家的经营管理至关重要。在口碑平台上,我们将客户流量定义为“单位时间内在商家使用支付宝消费的用户人次”。在这个问题中,我们将提供用户的浏览和支付历史,以及商家相关信息,并希望参赛选手可以以此预测所有商家在接下来14天内,每天的客户流量。
评测 Evaluation
在这次比赛中,每只队伍需要预测测试集中所有商家在未来14天(2016.11.01-2016.11.14)内各自每天(00:00:00-23:59:59)的客户流量。预测结果为非负整数。
ps: 这个loss函数以前没遇到过,也不知道有没有定义,到结束后看到别人的分享才知道是SMAPE
数据 Data
提供从2015.07.01到2016.10.31(除去2015.12.12)的商家数据,用户支付行为数据以及用户浏览行为数据。
提供的原始数据是客户-商家
的所有支付记录和浏览记录。记录量较大,4G内存的笔记本直接用pd.read_csv
读入和操作是都会有内存不足的问题。所以将记录整理简化为所有商家每天的客流量数据。当然这个过程丢失了很多原始信息,看到其他选手有从每小时消费量提取特征,但是限于当时的思路和实际情况还是采用这种方式。
比赛过程
由于是第一次参加类似比赛,也是第一次需要完成完整的数据分析处理的过程。刚开始的阶段就耽误了很多时间。开始一周主要用来熟悉jupyter notebook
, pandas
等等常用的工具。
Load Data
这里是通过迭代的方式load data, 以及对pd.DataFrame进行groupby
等操作,避免处理大数据量时内存不足的问题。
# load