采用决策树算法实现二分类
- 数据介绍
- 数据预处理
- 训练与测试
- 问题记录
数据介绍
T餐饮企业作为大型连锁企业,作为高层而言,了解周末和非周末销量是否有大的区别,以及天气、促销活动这些因素是否能影响门店的销量等信息至关重要,需要构建模型分析天气、是否周末、是否有促销活动对天气的影响。 —— 《Python数据分析与挖掘实战》
本次使用的数据为《Python数据分析与挖掘实战》中的“sales_data.xls”,它包括34个样本,输入为天气、是否周末、是否有促销,标签为销量。
各属性取值如下:
属性 | 取值 |
---|---|
天气 | 好;坏 |
是否周末 | 是;否 |
是否促销 | 是;否 |
销量 | 高;低 |
数据集如下:
序号 | 天气 | 是否周末 | 是否有促销 | 销量 |
---|---|---|---|---|
1 | 坏 | 是 | 是 | 高 |
2 | 坏 | 是 | 是 | 高 |
3 | 坏 | 是 | 是 | 高 |
… | … | … | … | … |
数据预处理
在预处理阶段,需要将数据处理成决策树模型所需的数据格式。
读取数据
使用pandas将数据导入:
filename = 'G