树模型参数解释
criterion gini or entropy : 选择决策树剪枝使用gini系数或者是熵值法
splitter best or random: 选择在所有特征中找最佳切分点或在部分特征中找最佳切分点
max_depth:对决策树深度做限制(预剪枝)
min_samples_split: 判断是否叶子节点继续进行分裂,如果小于这个值如10,节点样本数只有9了,就不会再继续分裂
min_samples_leaf: 限制叶子节点最小样本数
max_leaf_nodes :限制最大叶子节点个数
n_estimators :要建立树的个数
库函数导入注意事项
from sklearn.externals.six import StringIO
import matplotlib.pyplot as plt
import pandas as pd
import pydotplus
from sklearn.model_selection import train_test_split
from sklearn.datasets.california_housing import fetch_california_housing
from IPython.display import Image
from sklearn.model_selection import GridSearchCV
from sklearn import tree
注意:pydotplus库用于查看建立的树文件(虽然我没用到),StringIO库用于传递给输出树图参数(必写),另外导入GridSearchCV和train_test_split必须从model_selection中进行导入操作,而不能从cross——validation或者gridxx中导入,因为这样会存在由于更新导致的冲突问题。
housing = fetch_california_housing()
print(housing.DESCR)
print(housing.data.shape)