数据分析系列之python中随机森林算法的应用

最新推荐文章于 2024-07-24 08:41:07 发布

琅晓琳

最新推荐文章于 2024-07-24 08:41:07 发布

阅读量1k

点赞数 1

分类专栏：数据分析文章标签：决策树 python 机器学习 GridSearchCV 随机森林

本文链接：https://blog.csdn.net/langxiaolin/article/details/116853678

版权

数据分析专栏收录该内容

26 篇文章 1 订阅

订阅专栏

1 原理
1.1 随机森林算法：随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，每棵决策树都是一个分类器（假设现在针对的是分类问题），那么对于一个输入样本，N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果，将投票次数最多的类别指定为最终的输出，这就是一种最简单的 Bagging 思想。

1.2 Matplotlib和Seaborn
Matplotlib：高度定制化绘图，需要设置更多的参数；
Seaborn：定制化能力会比较差，代码更简洁。

1.3 网格搜索GridSearchCV参数详细解析

class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose=0, pre_dispatch=‘2*n_jobs’, error_score=’raise’, return_train_score=’warn’)
# 参数解释：
estimator：scikit-learn分类器接口，需要评分机制score()或者scoring参数设置;
param_grid：参数名称（字符串）作为键的字典以及用作值的参数设置列表（或这样的字典的列表），可以搜索任何参数设置序列；
scoring：字符串，默认值：无；
n_jobs: 并行数，默认值为1；
iid:默认True,为True时代表误差估计为所有样本之和，而非各个fold的平均数；
cv：交叉验证参数，默认None，使用三折交叉验证；
verbose：日志冗长度，0：不输出训练过程，1：偶尔输出，>1：对每个子模型都输出；一般取0。

2 实践
课题名称：基于RF的红酒品质分析
数据集：葡萄酒数据集
https://archive.ics.uci.edu/ml/datasets/Wine+Quality

代码参考：

# -*- coding: utf-8 -*-
"""
winequality-red data mining
"""
# url: https://archive.ics.uci.edu/ml/datasets/Wine+Quality
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
import warnings

warnings.filterwarnings('ignore') 
# 标准写法，需要加异常判断
try:
    wine = pd.read_csv('winequality-red.csv', sep = ';') 
except:
    print("Cannot find the file!")

print(wine.info())
# 查看数据的基本情况
print(wine.describe())
# 去掉重复记录
# 查看是否有重复记录的方法：wine.duplicated.sum()
wine = wine.drop_duplicates()
# 查看具体的某一类的数量，用饼图展示
wine['quality'].value_counts().plot(kind = 'pie', autopct = '%.2f')
plt.show()
# 查看quality与其它属性的相关性
print(wine.corr().quality)

# 绘图展示
plt.subplot(121)
sns.barplot(x = 'quality', y = 'volatile acidity', data = wine)
plt.subplot(122)
sns.barplot(x = 'quality', y = 'alcohol', data = wine)
plt.show()

from sklearn.preprocessing import LabelEncoder
# bins划分数据，构成左开右闭区间，2468指的是红酒的分数
bins = (2, 4, 6, 8)
# 组名确定
group_names  = ['low', 'medium', 'high']
wine['quality_lb'] = pd.cut(wine['quality'], bins = bins, labels = group_names)
# LabelEncoder分配标签，原因是字符串不适合计算，这样将'low', 'medium', 'high'对应0、1、2
lb_quality = LabelEncoder()    
wine['label'] = lb_quality.fit_transform(wine['quality_lb']) 
# 输出类别分布
print(wine.label.value_counts())

# 将特征和类别分开，存在x和y中
wine_copy = wine.copy()
wine.drop(['quality', 'quality_lb'], axis = 1, inplace = True) 
X = wine.iloc[:,:-1]
y = wine.label

# train_test_split自动选择训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

# 数据归一化
from sklearn.preprocessing import scale     
X_train = scale(X_train)
X_test = scale(X_test)

# 使用sklearn模块完成建模
from sklearn.metrics import confusion_matrix

# n_estimators：建立的子树的数量
rfc = RandomForestClassifier(n_estimators = 200)
# fit方法进行训练集学习
rfc.fit(X_train, y_train)
# predict方法进行测试集预测
y_pred = rfc.predict(X_test)
# 利用混淆矩阵比较预测值和实际值的差别
print(confusion_matrix(y_test, y_pred))

# 这里给出暴力搜索的栅格标准，即子树的数量分别取10,20,30...看gini和entropy最好的子树数量
param_rfc = {
            "n_estimators": [10,20,30,40,50,60,70,80,90,100,150,200],
            "criterion": ["gini", "entropy"]
            }
# GridSearchCV进行调参，适合小数据集，采用的是暴力搜索
# 具体解释见1.3
grid_rfc = GridSearchCV(rfc, param_rfc, iid = False, cv = 5)
grid_rfc.fit(X_train, y_train)
best_param_rfc = grid_rfc.best_params_
print(best_param_rfc)
rfc = RandomForestClassifier(n_estimators = best_param_rfc['n_estimators'], criterion = best_param_rfc['criterion'], random_state=0)
# 训练
rfc.fit(X_train, y_train)
# 预测
y_pred = rfc.predict(X_test)
# 混淆矩阵
print(confusion_matrix(y_test, y_pred))