随机森林:用随机的方式建立森林,森林由许多决策树组成,而且每一棵树之间是没有关联的。得到森林以后,当有一个新的输入样本进入的时候,就让森林中的每一棵树分别进行判断,看看这个样本属于哪一类,再看看哪一类被选择最多,就预测这个样本为哪一类。
随机森林构建并不是简单地把所有决策树并起来取个平均,其特点体现在随机上,包括两部分的随机:1.随机选取样本集的数据进行构造树(样本可能会重复);2.随机选取特征进行构造数。
一般很多的决策树算法都要进行剪枝,但是这里不用,因为随机森林的随机采样过程保证了随机性,即使不剪枝也不会出现过拟合
from pandas import read_csv#可以直接导入pandas包
from sklearn.model_selection import KFold#K-交叉检验包
from sklearn.model_selection import cross_val_score#最后评价模型的好坏用到此包