决策树可视化分析案例-旅游酒店

最新推荐文章于 2024-06-18 15:40:50 发布

「已注销」

最新推荐文章于 2024-06-18 15:40:50 发布

阅读量1.7k

点赞数 4

分类专栏：机器学习专栏文章标签：决策树机器学习 python 数据挖掘

本文链接：https://blog.csdn.net/ke996/article/details/107977033

版权

本文利用决策树算法对旅游酒店的档次进行分类识别，并通过可视化展示决策树运行流程和各变量的重要性。数据集包含25个特征，最后一列为分类（高、中、低）。在预处理阶段，对数据进行编码处理，然后进行建模训练。结果显示，土地租金是影响高档酒店分类的重要因素。

摘要由CSDN通过智能技术生成

分析项目介绍

通过决策树算法来对旅游酒店的档次分类进行识别，并可视化决策树运行流程图以及展示各个各个变量对分类的重要性。

一、数据集介绍

样本数据共25个特征,第一个变量是样本名，最后一个字段是特征分类，共三个分类:高、中、低，全字段名如下表所示：

序号	变量名
1	民宿
2	距离居民点（公里）
3	距离中心城市（50公里/h）
4	距离火车站（50公里/h）
…	…
…	…
23	有无村卫生室
24	垃圾处理率（%）
25	污水处理率（%）
26	民宿档次

二、代码实现

1.导包并加载数据
注意：graphviz包是一个可视化决策树的包，通过anaconda下载后还需要在官网上下载msi文件进行安装，并将该软件加入系统的环境变量中。下载路径如下，不懂环境变量配置须另寻相关资料
https://www2.graphviz.org/Packages/stable/windows/10/msbuild/Release/Win32/
并注意该代码最后三行是为了解决matolitlib中文乱码的所添加的代码.

import sklearn
from sklearn.model_selection import train_test_split
from  sklearn import tree
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import export_graphviz
import graphviz
import pydotplus
data=pd.read_csv('D:/民宿分析.csv')
#解决matplotlib中文乱码问题
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False

2.数据预处理
data变量数据如下，在建模前，我们需要对数据进行预处理将数据的训练特征与分类特征提取出来，对于二分类变量进行0-1编码，由于是三分类问题，我们分类特征也进行0-1编码两两配对进行三次建模.
在这里插入图片描述
该思路代码如下所示：

在数据预处理中将[‘民宿档次’]==‘高‘ 改为低，或者中，则将整个分析改为该类别的识别。

#1数据预处理
for i in range(data.shape[0]):
    if(data[<

最低0.47元/天解锁文章

「已注销」

关注

4
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
决策树可视化分析案例-旅游酒店

分析项目介绍通过决策树算法来对旅游酒店的档次分类进行识别，并可视化决策树运行流程图以及展示各个各个变量对分类的重要性。一、数据集介绍样本数据共25个特征,第一个变量是样本名，最后一个字段是特征分类，共三个分类:高、中、低，全字段名如下表所示：序号变量名1民宿2距离居民点（公里）3距离中心城市（50公里/h）4距离火车站（50公里/h）5距离机场（50公里/h）6距离最近高速路口距离（公里）7距离旅游景区（公里）8年均温
复制链接

扫一扫

专栏目录