原标题:Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
原文链接:http://tecdat.cn/?p=17748
在数据科学学习之旅中,我经常处理日常工作中的时间序列数据集,并据此做出预测。
我将通过以下步骤:
探索性数据分析(EDA)
问题定义(我们要解决什么)
变量识别(我们拥有什么数据)
单变量分析(了解数据集中的每个字段)
多元分析(了解不同领域和目标之间的相互作用)
缺失值处理
离群值处理
变量转换
预测建模
LSTM
XGBoost
问题定义
我们在两个不同的表中提供了商店的以下信息:
商店:每个商店的ID
销售:特定日期的营业额(我们的目标变量)
客户:特定日期的客户数量
StateHoliday:假日
SchoolHoliday:学校假期
StoreType:4个不同的商店:a,b,c,d
CompetitionDistance:到最近的竞争对手商店的距离(以米为单位)
CompetitionOpenSince [月/年]:提供最近的竞争对手开放的大致年份和月份
促销:当天促销与否
Promo2:Promo2是某些商店的连续和连续促销:0 =商店不参与,1 =商店正在参与
PromoInterval:描述促销启动的连续区间,并指定重新开始促销的月份。
利用所有这些信息,我们预测未来6周的销售量。
# 让我们导入EDA所需的库:
import numpy as np # 线性代数
import pandas as pd # 数据处理,CSV文件I / O导入(例如pd.read_csv)
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime