独家 | 用随机森林预测“美版拼多多”商品销量

最新推荐文章于 2023-08-14 17:20:26 发布

数据派THU

最新推荐文章于 2023-08-14 17:20:26 发布

阅读量1.1k

点赞数 1

文章标签：数据分析人工智能机器学习 python 大数据

本文链接：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/112550541

版权

本文介绍了如何使用Python和随机森林回归模型预测电商平台上商品的销量，以Wish数据集为案例，展示了数据预处理、模型建立和结果分析的过程。通过分析，揭示了评价数量与销量之间的正相关关系，以及随机森林回归在处理非线性数据中的优势。

摘要由CSDN通过智能技术生成

作者：Andrew Udell

翻译：王闯（Chuck）

校对：廖倩颖

本文约2200字，建议阅读8分钟

作者基于Kaggle上的Wish数据集，用Python演示了随机森林回归预测商品销量的方法，对于读者分析和解决此类问题是很好的借鉴。

照片来源rupixen.com

数据集

为了演示随机森林回归，我们这里会用到当下非常流行的Wish（“美版拼多多”）的电商销售数据集。数据集来自Kaggle，仅包含夏季服装的销售信息。其属性包括产品说明，评价，是否使用了广告宣传，是否在产品列表中添加了“手慢无”标语以及已售出的商品数量等。

我们采用随机森林回归这一利器来预测商品的销量。一个好的，准确的预测不但对于库存计划人员的工作有非常大的价值，因为他们需要估计订购或者生产多少产品，而且对于销售人员理解产品在电商平台的表现也是至关重要的。

所有数据的导入和操作都将通过python及其pandas和numpy库来完成。

import pandas as 
pdimport numpy as np


# import the data saved as a csv
df = pd.read_csv("Summer_Sales_08.2020.csv")

前两行分别导入pandas和numpy库。最后一行读入前先保存过并重命名为“ Summer_Sales_08.2020”的CSV文件，并创建了一个数据框。

df["has_urgency_banner"] = df["has_urgency_banner"].fillna(0)


df["discount"] = (df["retail_price"] - df["price"])/df["retail_price"]

“has_urgency_banner”这一列表示产品列表中是否使用了“手慢无”标语，在查看数据时发现这一列的编码方式不是很合适。这里并没有采用通常的1和0编码，而是在没有使用标语时留空。代码第一行我们用0填充这些空白。

代码第二行创建名为“折扣”的新的一列，该列计算实际销售价和建议零售价之间的折扣。

df [“

关注