模型
随机森林是集成学习算法的一种。sklearn更多的集成学习算法
RandomForestClassifier 参数详解
重要的参数有基分类器的个数(n_estimators)、特征选择算法(critirion)、单个决策树的最大深度(max_depth)等。
预处理
import pandas as pd
path = "../Data/classify.csv"
rawdata = pd.read_csv(path)
X = rawdata.iloc[:,:13]
Y = rawdata.iloc[:,14] # {”A":0,"B":1,"C":2}
Y = pd.Categorical(Y).codes # ABC变成123
建模
from sklearn.ensemble import RandomForestClassifier
model