XGBOOSTsales predict实例学习,kaggles

XGBOOST实例学习
以kaggle一道题sales predict为对象,kerners里面这道题的特征工程有个老外的一套流程简单易懂https://www.kaggle.com/dlarionov/feature-engineering-xgboost ,感觉一遍流程完整理解下来能学习到很多东西。下面是整个逻辑和处理过程的大白话描述有问题的地方欢迎指出:
(1)特征的含义:①训练集包含:date_block_num为了方便计算月份从13年1月计为0到15年10月计为33,则将要预测的月份计为34;shop_id,商店的唯一代码;item_id商品的唯一代码,范围从0-22169不等,实际训练集中的商品只有21807种;item_price单一商品的价格;item_cnt_day商品在该商店销售的数量,后面会将其归纳成item_cnt_month
②items的数据集:item_name商品的名字;item_id商品的唯一代码;item_category_id每种商品所属类的代码
③shop的数据集:商店名字和商店的唯一代码
④categories的数据集:item_category_name商品所属类的名字;item_category_id每种商品所属类的代码
⑤测试集:shop_id和item_id两两配对预测第34个月份的销量,并不是所有商品在每个商店都有售所以每个商店只有其中一些商品需要预测

(2)①先找到单品售价和单品日常销量的异常点,对于售价小于0的不正常值采取平均值赋值
②有几个商店的名称更其他商店重复了需要修改,0和57、1和58、10和11

(3)商店、商品分类、单品的处理:
①每个商店的名字首项是城市名,取出城市后作为一列新特征,并对其因子化
②商品类别是每个商品的小类别,在类别名里还可分出两种大类别,作为两个新的特征type和subtype。有两种情况,一种第一个有‘-’分割成两个元素第一个元素就是首选类别,第二个元素就是代替类别;没有‘-’则首选类别和代替类别都一样。并将这两个特征因子化。

(4)将单品日销售量按月求和得出单品月销售量item_cnt_months:
①求出测试集中单品的不重复数目与训练集测试集共有的单品不重复数目的差,即想知道测试集中要预测的商品在训练集中是否全有;求出测试集单品不重复数目;求出测试集的长度,既测试集的商品与商店配对的行数
②建立一个新的数据集matrix里面包含三个特征:date_block_num、shop_id、item_id,三个特征数据来源于训练集且三个特征都不重复
③对train训练集建立新的特征revenue,通过训练集的单品价格和日销量相乘获得
④在训练集中对date_block_num,shop_id,item_id进行groupby,并对groupby后的item_cnt_day进行求和(agg)产生新的特征列,并对新的特征列进行命名item_cnt_month。然后将这一特征leftjoin进matrix数据集中。

(5)对测试集进行处理:
①将测试集的date_block_num设为34,并将date_block_num、shop_id的数据类型转换为int8,item_id的数据类型转换为int16
②将matrix和test两张表行首尾连接起来

(6)商店,单品和类别进行特征处理:
将shops、items、cats等数据集leftjoin至matrix数据集中。此时matrix多了city_code item_category_id type_code subtype_code等四个特征。

(7)目标延后处理(作者直觉认为重要的就做1,2,3,6,12五个时间点的处理,不重要的就一个月)
def lag_feature(df, lags, col):
tmp = df[[‘date_block_num’,’shop_id’,’item_id’,col]]
for i in lags:
shifted = tmp.copy()
shifted.columns = [‘date_block_num’,’shop_id’,’item_id’, col+’lag‘+str(i)]
shifted[‘date_block_num’] += i
df = pd.merge(df, shifted, on=[‘date_block_num’,’shop_id’,’item_id’], how=’left’)
return df
①构造商店和单品两两配对后在1,2,3,6,12月后item_cnt_month的特征值(这里作者的意思是如果有时间序列的稳定性足够强,那么可能存在着我这个月的销量在1个月两个月三个月半年一年后还是这个销量,例如date_block_num=1;shop_id=1;item_id=1时的销量是10,那么在其1,2,3,6,12月后也为10,以方便后面寻求规律)
②同理,构造在过了一月后item_cnt_month的平均值的特征值
③构造不重复单品和月份在过了1,2,3,6,12月后item_cnt_month的平均值的特征值
④构造不同的商店和月份在过了1,2,3,6,12月后item_cnt_month的平均值的特征值
⑤构造不同的item_category_id和月份在过了1月后item_cnt_month的平均值的特征值
⑥构造不同的item_category_id和不同的商店、月份在过了1月后item_cnt_month的平均值的特征值
⑦构造不同的type_code和不同的商店、月份在过了1月后item_cnt_month的平均值的特征值
⑧构造不同的subtype_code和不同的商店、月份在过了1月后item_cnt_month的平均值的特征值
⑨构造不同的citycode和月份在过了1月后item_cnt_month的平均值的特征值
⑩构造不同的citycode和不重复单品、月份在过了1月后item_cnt_month的平均值的特征值
⑪构造不同的type_code和月份在过了1月后item_cnt_month的平均值的特征值
⑫构造不同的subtype_code和月份在过了1月后item_cnt_month的平均值的特征值

(8)构造价格趋势特征delta_price_lag
①对不重复单品算出它的价格均值item_avg_item_price,然后leftjoin入matrix数据集中
②对不同月份的不重复单品算出它的价格均值date_item_avg_item_price,然后leftjoin入matrix数据集中
③同(7)原理,构造date_item_avg_item_price构造1,2,3,4,5,6 月后的date_item_avg_item_price特征值
④通过③求出了6个特征值与item_avg_item_price相减后再与item_avg_item_price相比,获得6列趋势变化作为新的特征值,这6列对应的值是相同的。
⑤因为单品的date_item_avg_item_price_lag_。。不会在每个月都出现或者从头到尾都出现所以作者做了个循环从1-6只要最近月份出现就将他作为最终的delta_price_lag,又称为’price_trend’特征。
构造每个月的商店收益趋势特征delta_revenue_lag_1
①通过每天的revenue求出每月不同商店的revenue总和date_shop_revenue
②通过date_shop_revenue求出不同的商店在所有月份的均值shop_avg_revenue’
③delta_revenue收益趋势为date_shop_revenue减去shop_avg_revenue除以shop_avg_revenue,然后构造过了一月后的趋势

(9)特殊特征
①求出每一行对应月份month,然后转换为天数获得特征days。
②通过缓存机制构造特殊特征item_shop_last_sale,这个特征意思是相邻两次售出时间的间隔。具体方法是将shop_id,item_id组合从行顶部和item_cnt_month!=0开始循环与cache进行匹配,没有的就将这行对应的date_block_num放进cache里;当第二次出现时就将date_block_num指定为last_date_block_num,然后将相邻的date_block_num相减赋予新特征item_shop_last_sale。
③同理将单独item_id以与②同样的方法构造item_last_sale
④构造某次与第一次售出的时间间隔item_shop_first_sale和item_first_sale

(10)最终准备
①因为求的延后最多是12所以从0-11的date_block_num是没用的
②填空值
③转换为PKL格式然后将内存内几个数据集删掉释放内存

(1)xgboost部分
①导入数据,通过列表选择最终需要特征
②第34月作为测试集,33月作为验证集13-33作为训练集
③构造模型参数,然后建模预测查看特征重要性导出预测结果

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
### 回答1: 对于机器学习预测结果可视化,可以使用Python中的Matplotlib和Seaborn等库进行绘图。 下面以一个简单的线性回归模型为例,来展示如何可视化它的预测结果: ```python import numpy as np import matplotlib.pyplot as plt import seaborn as sns # 生成一些随机数据 X = 2 * np.random.rand(100, 1) y = 4 + 3 * X + np.random.randn(100, 1) # 将数据可视化 sns.scatterplot(x=X.ravel(), y=y.ravel()) plt.xlabel('X') plt.ylabel('y') plt.show() # 训练线性回归模型 from sklearn.linear_model import LinearRegression lin_reg = LinearRegression() lin_reg.fit(X, y) # 对新数据进行预测 X_new = np.array([[0], [2]]) y_pred = lin_reg.predict(X_new) # 将预测结果可视化 sns.scatterplot(x=X.ravel(), y=y.ravel()) sns.lineplot(x=X_new.ravel(), y=y_pred.ravel(), color='red') plt.xlabel('X') plt.ylabel('y') plt.show() ``` 上述代码中,首先生成了一些随机数据并将其可视化。然后用线性回归模型对数据进行训练,并对新数据进行预测。最后将预测结果可视化,其中蓝色点表示原始数据,红色线表示预测结果。 通过这样的可视化,我们可以更加直观地了解模型的预测效果,从而更好地进行模型的调整和优化。 ### 回答2: Python机器学习中的predict结果可视化,可以通过使用各种图表和图形库来实现。其中一种常用的库是matplotlib。 首先,我们可以使用matplotlib库中的散点图来可视化预测结果。我们可以将样本点在二维平面上以不同的颜色和形状绘制出来,然后用预测结果对应的颜色和形状来标记。这样可以直观地展示预测结果与真实结果之间的关系。 另一种常见的可视化方法是使用matplotlib中的柱状图或折线图来表示预测结果与真实结果之间的差异。可以将预测结果和真实结果按照某种标准进行分组,然后用柱状图或折线图表示每个组的平均预测结果和真实结果。通过对比不同组之间的差异,可以更加直观地了解模型的预测能力。 此外,还可以使用matplotlib中的热力图来展示预测结果的概率分布。热力图可以将不同预测结果的概率用颜色深浅来表示,从而可以观察到不同预测结果的概率分布情况。 除了matplotlib,还有其他一些可视化库也可以用来展示机器学习预测结果,例如seaborn和plotly。这些库提供了更多的图表和图形类型,可以根据具体需求选择合适的库进行可视化。 总结起来,Python机器学习predict结果可视化可以通过使用matplotlib等库来实现,可以利用散点图、柱状图、折线图、热力图等图表来展示预测结果与真实结果之间的关系、差异和概率分布。 ### 回答3: 在Python中,我们可以使用不同的库和工具来对机器学习模型的predict结果进行可视化。下面是几种常见的可视化方法: 1. Matplotlib库:Matplotlib是Python中最常用的绘图库,可以用于绘制各种类型的图表,包括直方图、散点图、线图等。我们可以将模型的预测结果与真实结果进行对比,使用Matplotlib创建直方图或散点图来显示它们之间的差异。 2. Seaborn库:Seaborn是基于Matplotlib的高级数据可视化库,它提供了更加美观和专业的统计图表,同时也更加简单易用。我们可以使用Seaborn绘制误差线图、箱线图等,以展示预测结果的分布情况或者模型的性能。 3. Plotly库:Plotly是一种交互式数据可视化工具,可以创建美观且具有动态性的图表。我们可以使用Plotly来绘制预测结果的3D散点图或表面图,以展示数据的分布和模型的预测情况。 4. TensorFlow的TensorBoard:如果我们使用的是TensorFlow来构建和训练机器学习模型,可以使用TensorBoard来可视化predict结果。TensorBoard为我们提供了丰富的可视化工具,包括绘制训练和验证数据的曲线、查看模型的架构和参数分布等。 无论选择哪种方法,可视化机器学习模型的predict结果可以帮助我们更好地理解模型的性能、数据的分布以及预测的准确性。通过直观的可视化图表,我们能够更好地分析和解释模型的结果,并提供对改进模型和优化算法的有价值的见解。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值