1、数据来源
预测未来销售该项目来源于kaggle中的一场比赛的赛题,比赛使用的数据是由日常销售数据组成的时间序列数据集,该数据集由俄罗斯最大的软件公司之一 - 1C公司提供。
2、数据集说明
2、1 文件说明
文件名 | 文件说明 | 包含属性 |
---|---|---|
sales_train.csv | 训练集(2013年1月至2015年10月的每日历史数据,包括销售额) | date、date_block_num、shop_id、item_id、item_price、item_cnt_day |
test.csv | 测试集(预测2015年11月这些商店和产品的销售额) | ID、shop_id、item_id |
sample_submission.csv | 格式正确的示例提交文件 | ID、item_cnt_month |
items.csv | 有关商品/产品的补充信息 | item_name、item_id、item_category_id |
item_categories.csv | 有关项目类别的补充信息 | item_category_name、item_category_id |
shops.csv | 有关商店的补充信息 | shop_name、shop_id |
2、2 文件字段说明
字段 | 字段说明 |
---|---|
shop_id | 商店的唯一标识符 |
item_id | 产品的唯一标识符 |
item_category_id | 项目类别的唯一标识符 |
item_cnt_day | 销售的产品数量。您正在预测此度量的每月金额 |
item_price | 商品的当前价格 |
date | 日期(格式为dd / mm / yyyy) |
date_block_num | 一个连续的月号,用于方便。2013年1月是0,2013年2月是1,…,2015年10月是33 |
item_name | 项目名称 |
shop_name | 商店名称 |
item_category_name | 项目类别的名称 |
ID | 表示测试集中的(商店,项目)元组的ID |
2、3 商店名称说明(Google翻译过来的)
item_category_name | item_category_id |
---|---|
PC - 耳机/耳机 | 0 |
配件 - PS2 | 1 |
配件 - PS3 | 2 |
配件 - PS4 | 3 |
配件 - PSP | 4 |
配件 - PSVita | 5 |
配件 - XBOX 360 | 6 |
配件 - XBOX ONE | 7 |
门票(号码) | 8 |
货物交付 | 9 |
游戏机 - PS2 | 10 |
游戏机 - PS3 | 11 |
游戏机 - PS4 | 12 |
游戏机 - PSP | 13 |
游戏机 - PSVita | 14 |
游戏机 - XBOX 360 | 15 |
游戏机 - XBOX ONE | 16 |
游戏机 - 其他 | 17 |
游戏 - PS2 | 18 |
游戏 - PS3 | 19 |
游戏 - PS4 | 20 |
游戏 - PSP | 21 |
游戏 - PSVita | 22 |
游戏 - XBOX 360 | 23 |
游戏 - XBOX ONE | 24 |
游戏 - 游戏配件 | 25 |
Android游戏 - 数字 | 26 |
MAC游戏 - 数字 | 27 |
PC游戏 - 其他出版物 | 28 |
PC电脑游戏 - 收藏版 | 29 |
PC游戏 - 标准版 | 30 |
电脑游戏 - 数字 | 31 |
支付卡(电影、音乐、游戏) | 32 |
支付卡 - 直播 | 33 |
支付卡 - 直播! (数字) | 34 |
支付卡 - PSN | 35 |
支付卡 - Windows(数字) | 36 |
电影院 - 蓝光 | 37 |
电影院 - 蓝光3D | 38 |
电影院 - 蓝光4K | 39 |
电影院 - DVD | 40 |
电影院 - 收藏家 | 41 |
书籍 - 艺术书、百科全书 | 42 |
书籍 - 有声读物 | 43 |
书籍 - 有声读物(图) | 44 |
书籍 - 有声读物1C | 45 |
书籍 - 商业文学 | 46 |
书籍 - 漫画 | 47 |
书籍 - 计算机文学 | 48 |
书籍 - 有条理的材料1C | 49 |
书籍 - 明信片 | 50 |
书籍 - 认知文学 | 51 |
书籍 - 指南 | 52 |
书籍 - 小说 | 53 |
书籍 - 数字 | 54 |
音乐 - 本地CD | 55 |
音乐 - 品牌CD制作 | 56 |
音乐 - MP3 | 57 |
音乐 - 乙烯基 | 58 |
音乐 - 音乐视频 | 59 |
音乐 - 礼品版 | 60 |
礼品 - 属性 | 61 |
礼品 - 小工具、机器人、体育 | 62 |
礼品 - 软玩具 | 63 |
礼品 - 棋盘游戏 | 64 |
礼品 - 棋盘游戏(紧凑型) | 65 |
礼品 - 卡片、贴纸 | 66 |
礼品 - 发展 | 67 |
礼品 - 证书、服务 | 68 |
礼品 - 纪念品 | 69 |
礼品 - 纪念品(链接) | 70 |
礼品 - 袋,相册,鼠标垫 | 71 |
礼品 - 数字 | 72 |
程序 - 1C:企业8 | 73 |
程序 - MAC(数字) | 74 |
计划 - 家庭和办公室 | 75 |
节目 - 家庭和办公室(数字) | 76 |
课程 - 教育 | 77 |
课程 - 教育(图) | 78 |
服务 | 79 |
实用程序 - 门票 | 80 |
纯粹的载体(尖顶) | 81 |
纯载体(片) | 82 |
电池 | 83 |
3、项目要求
3、1 评估的要求
(1) 将均方根误差(RMSE)作为评估提交的度量指标;
(2) 真实销售量被限制在[0,20]范围以内。
3、2 提交文件格式
该项目要求预测下个月(第34个月或2015年11月)各个商店的每个产品的销售额。即对于测试集中的每个ID(唯一映射到shop_id与item_id),预测出其下一个月的销售总数。提交的文件格式如下所示:
ID | item_cnt_month |
---|---|
0 | 0.5 |
1 | 0.5 |
2 | 0.5 |
3 | 0.5 |
… | … |
PS:最新优化没有同步到博客当中,需要交流的可以邮箱交流:博主邮箱:greatpanc@163.com