内容目录
一、数据集介绍二、决策树相关算法使用1、查看数据2、数据预处理3、决策树模型4、 tree.feature_importances_¶5、随机森林模型6、网格搜索找最好的参数三、决策树可视化
一、数据集介绍
•本数据集是采集于葡萄牙北部“Vinho Verde”葡萄酒的数据。由于隐私和物流问题,只有理化变量特征是可以进行使用的(例如,数据集中没有关于葡萄品种、葡萄酒品牌、葡萄酒销售价格等的数据)。
数据链接:https://pan.baidu.com/s/1LKdH6HuhQul0FFEq0Zgt-w
提取码:nmvz
数据集可探索、研究的方向?
•葡萄酒质量的分布情况如何?
•如何根据现有数据预测新的葡萄酒的质量?
•是否所有理化特征都与葡萄酒的质量相关?
二、决策树相关算法使用
1、查看数据
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score,precision_recall_fscore_support
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV,cross_val_score,train_test_split
import warnings
warnings.filterwarnings('ignore')#忽略各种报红警告
pd.set_option('display.max_columns', None)#显示所有列
pd.set_option('display.max_rows', None)#显示所有行
#设置value的显示长度为100,默认为50
pd.set_option('max_colwidth',100)
pd.set_option('display.width', 5000) #dataframe不换行
# k-means无监督的机器学习算法
df = pd.read_csv('.\winequality-white.csv')
print(df.head())
df.info()
RangeIndex: 4898 entries, 0 to 4897