机器学习kaggle案例：沃尔玛招聘 - 商店销售预测

最新推荐文章于 2024-02-23 19:31:44 发布

明镜应缺

最新推荐文章于 2024-02-23 19:31:44 发布

阅读量6.5k

点赞数 10

分类专栏：机器学习 kaggle 文章标签：机器学习 kaggle 销售预测

本文链接：https://blog.csdn.net/weixin_42662126/article/details/100005632

版权

本文介绍了参与kaggle上的沃尔玛商店销售预测比赛，详细解析了比赛的背景、评估标准和数据集内容。通过分析数据，探讨了如何处理缺失值、创建新特征，并对模型进行了初步构建，旨在展示在零售数据预测中的机器学习应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

kaggle链接:https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting
ipynb文件：https://github.com/824024445/KaggleCases

一、简介

1.1 比赛描述

建模零售数据的一个挑战是需要根据有限的历史做出决策。如果圣诞节一年一次，那么有机会看到战略决策如何影响到底线。

在此招聘竞赛中，为求职者提供位于不同地区的45家沃尔玛商店的历史销售数据。每个商店都包含许多部门，参与者必须为每个商店中的每个部门预测销售额。要添加挑战，选定的假日降价事件将包含在数据集中。众所周知，这些降价会影响销售，但预测哪些部门受到影响以及影响程度具有挑战性。

想要在世界上最大的一些数据集的良好环境中工作吗？这是向沃尔玛招聘团队展示您的模特气概的机会。

这项比赛计入排名和成就。如果您希望考虑参加沃尔玛的面试，请在第一次参加时选中“允许主持人与我联系”复选框。

你必须在招募比赛中作为个人参加比赛。您只能使用提供的数据进行预测。

1.2 比赛评估

本次比赛的加权平均绝对误差（WMAE）评估：

[外链图片转存失败(img-l8sox1g6-1566399330281)(https://raw.githubusercontent.com/824024445/KaggleCases/master/img/walmart-recruiting-store-sales-forecasting/1-1.jpg)]

n是行数
yi是真实销售额
wi是权重，如果该周是假日周，wi=5，否则为1

提交文件：Id列是通过将Store，Dept和Date与下划线连接而形成的（例如Store_Dept_2012-11-02）

对于测试集中的每一行（商店+部门+日期三元组），您应该预测该部门的每周销售额。

1.3 数据描述

您将获得位于不同地区的45家沃尔玛商店的历史销售数据。每个商店都包含许多部门，您的任务是预测每个商店的部门范围内的销售额。

此外，沃尔玛全年举办多项促销降价活动。这些降价活动在突出的假期之前，其中最大的四个是超级碗，劳动节，感恩节和圣诞节。包括这些假期的周数在评估中的加权比非假日周高五倍。本次比赛提出的部分挑战是在没有完整/理想的历史数据的情况下模拟降价对这些假期周的影响。

stores.csv:
此文件包含有关45个商店的匿名信息，指示商店的类型和大小。

train.csv:
这是历史销售数据，涵盖2010-02-05至2012-11-01。在此文件中，您将找到以下字段：
Store - 商店编号
Dept - 部门编号
Date - 一周
Weekly_Sales - 给定商店中给定部门的销售额(目标值)
sHoliday - 周是否是一个特殊的假日周

test.csv:
此文件与train.csv相同，但我们保留了每周销售额。您必须预测此文件中每个商店，部门和日期三元组的销售额。

features.csv:
此文件包含与给定日期的商店，部门和区域活动相关的其他数据。它包含以下字段：
Store - 商店编号
Date - 一周
Temperature - 该地区的平均温度
Fuel_Price - 该地区的燃料成本
MarkDown1-5 - 与沃尔玛正在运营的促销降价相关的匿名数据。MarkDown数据仅在2011年11月之后提供，并非始终适用于所有商店。任何缺失值都标有NA。
CPI - 消费者物价指数
Unemployment - 失业率
IsHoliday - 周是否是一个特殊的假日周

为方便起见，数据集中的四个假期在接下来的几周内（并非所有假期都在数据中）：

超级碗：2月12日至10日，11月2日至11日，10月2日至12日，2月8日至2月13
日劳动节：10月9日至10日，9月9日至9日，9月9日至9月12日-13
感恩节：26-Nov- 10,25 -Nov-11,23-Nov-12,29-Nov-13
圣诞节：31-Dec-10,30-Dec-11,28-Dec-12,27-Dec -13

二、代码

2.1 获取数据

2.1.1 下载数据

我写了一个小函数来实现数据的下载，数据全都是官网原版数据，我存到了我的github上。（https://github.com/824024445/KaggleCases）

所有数据都下载到了你当前文件夹下的datasets文件下，每个案例涉及到的数据全部下载到了以该案例命名的文件夹下。

我所有的kaggle案例的博客，下载数据均会使用这个函数，只需要修改前两个常量即可。
> 注：此函数只用于下载数据，函数在该代码框内就运行了。不再用到其它代码中，包括常量，也不会用在其他地方。

import os
import zipfile
from six.moves import urllib

FILE_NAME = "walmart-recruiting-store-sales-forecasting.zip" #文件名
DATA_PATH ="datasets/walmart-recruiting-store-sales-forecasting" #存储文件的文件夹，取跟文件相同（相近）的名字便于区分
DATA_URL = "https://github.com/824024445/KaggleCases/blob/master/datasets/" + FILE_NAME + "?raw=true"


def fetch_data(data_url=DATA_URL, data_path=DATA_PATH, file_name=FILE_NAME):
    if not os.path.isdir(data_path): #查看当前文件夹下是否存在"datasets/titanic"，没有的话创建
        os.makedirs(data_path)
    zip_path = os.path.join(data_path, file_name) #下载到本地的文件的路径及名称
    # urlretrieve()方法直接将远程数据下载到本地
    urllib.request.urlretrieve(data_url, zip_path) #第二个参数zip_path是保存到的本地路径
    data_zip = zipfile.ZipFile(zip_path)
    data_zip.extractall(path=data_path) #什么参数都不输入就是默认解压到当前文件,为了保持统一，是泰坦尼克的数据就全部存到titanic文件夹下
    data_zip.close()
fetch_data()

2.1.2 读取数据

import pandas as pd
import numpy as np

train_df = pd.read_csv("datasets/walmart-recruiting-store-sales-forecasting/train.csv")
test_df = pd.read_csv("datasets/walmart-recruiting-store-sales-forecasting/test.csv")
features = pd.read_csv("datasets/walmart-recruiting-store-sales-forecasting/features.csv")
stores = pd.read_csv("datasets/walmart-recruiting-store-sales-forecasting/stores.csv")

train_df = train_df.merge(features, on=["Store", "Date"], how="left").merge(stores, on="Store", how="left")
test_df = test_df.merge(features, on=["Store", "Date"], how="left").merge(stores, on="Store", how="left")
combine = [train_df, test_df]
train_df.head()

	Store	Dept	Date	Weekly_Sales	IsHoliday_x	Temperature	Fuel_Price	MarkDown1	MarkDown2	MarkDown3	MarkDown4	MarkDown5	CPI	Unemployment	IsHoliday_y	Type	Size
0	1	1	2010-02-05	24924.50	False	42.31	2.572	NaN	NaN	NaN	NaN	NaN	211.096358	8.106	False	A	151315
1	1	1	2010-02-12	46039.49	True	38.51	2.548	NaN	NaN	NaN	NaN	NaN	211.242170	8.106	True	A	151315
2

最低0.47元/天解锁文章