C4.5决策树预测销量

本文介绍了如何使用C4.5决策树算法预测餐饮企业的销售量。通过对原始数据预处理,包括异常值处理和特征归类,然后运用C4.5决策树建立模型,最终得到一个能预测销量高低的决策树模型。模型考虑了周末、天气和促销等因素对销量的影响,通过计算信息增益确定最佳分割属性。
摘要由CSDN通过智能技术生成


   就餐饮企业而言,由于餐饮业是生产和销售同时进行的,因此销售预测对餐饮业十分重要。基于C4.5决策树建立模型,应用python软件计得出未来销售量的高低,从而减少菜品脱销现象以及因材料准备不足而造成的销售延误。

 

 

 

关键词:餐饮业;销售量;预测;C4.5决策树;python;

 

 


1挖掘目标

  对于大型连锁餐饮企业来说,生产的产品种类比较多,另外涉及的分店所处的位置也不同,数目比较多。对于企业高层来说,了解周末和非周末,天气好坏,是否促销等对销量的影响,用来改进原材料,资金的调度,避免在相同时间内有的分店产品脱销,有的却大量滞销的尴尬。因此,对销量的预测显得十分重要。

本次建模的目标是利用收集到的某餐饮分店的销售原始数据进行C4.5决策树建模分析,C4.5算法是机器学习和数据挖掘领域中的一整套用于处理分类问题的算法。属于有监督学习,有易于解释易于建模等优点,在此我们利用其有监督学习的属性对销量进行建模预测。

2分析方法与过程

 

2.1 总体流程


2.2 具体步骤
2.2.1 数据预处理

原始数据(部分)如下表:

 

   

 

对于天气属性,原始数据中有多种不同的值,这里用excel将属性值进行类别整合。如天气“多云”,“晴”等适宜出行归为天气“好”类。同理,对于“小雪”,“雨”,“雨夹雪”等则归为天气“差”一类。因决策树建模不需要太多数据,因此我们只整理抽出35天的数据,整理出如下:


接下来要对“销量”的数据进行整理。导入“销量”数据到python,运行describe()函数,可得“销量”的概况,具体代码及结果如下:

 



由表知均值mean为2701,在此,我们定义销量低于3000为“低”,定义高于3000为“高”。

导入销量列表到python,制作箱型图进一步查看缺失值异常值等。Python具体代码如下:

  • 5
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值