决策树可视化分析案例-旅游酒店

本文利用决策树算法对旅游酒店的档次进行分类识别,并通过可视化展示决策树运行流程和各变量的重要性。数据集包含25个特征,最后一列为分类(高、中、低)。在预处理阶段,对数据进行编码处理,然后进行建模训练。结果显示,土地租金是影响高档酒店分类的重要因素。
摘要由CSDN通过智能技术生成

分析项目介绍

通过决策树算法来对旅游酒店的档次分类进行识别,并可视化决策树运行流程图以及展示各个各个变量对分类的重要性。

一、数据集介绍

样本数据共25个特征,第一个变量是样本名,最后一个字段是特征分类,共三个分类:高、中、低,全字段名如下表所示:

序号 变量名
1 民宿
2 距离居民点(公里)
3 距离中心城市(50公里/h)
4 距离火车站(50公里/h)
23 有无村卫生室
24 垃圾处理率(%)
25 污水处理率(%)
26 民宿档次

二、代码实现

1.导包并加载数据
注意:graphviz包是一个可视化决策树的包,通过anaconda下载后还需要在官网上下载msi文件进行安装,并将该软件加入系统的环境变量中。下载路径如下,不懂环境变量配置须另寻相关资料
https://www2.graphviz.org/Packages/stable/windows/10/msbuild/Release/Win32/
并注意该代码最后三行是为了解决matolitlib中文乱码的所添加的代码.

import sklearn
from sklearn.model_selection import train_test_split
from  sklearn import tree
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import export_graphviz
import graphviz
import pydotplus
data=pd.read_csv('D:/民宿分析.csv')
#解决matplotlib中文乱码问题
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False

2.数据预处理
data变量数据如下,在建模前,我们需要对数据进行预处理将数据的训练特征与分类特征提取出来,对于二分类变量进行0-1编码,由于是三分类问题,我们分类特征也进行0-1编码两两配对进行三次建模.
在这里插入图片描述
该思路代码如下所示:

在数据预处理中将[‘民宿档次’]==‘高‘ 改为低,或者中,则将整个分析改为该类别的识别。

#1数据预处理
for i in range(data.shape[0]):
    if(data[<
  • 4
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值