目录
sklearn.model_selection.train_test_split
X_train,X_test, y_train, y_test = sklearn.model_selection.train_test_split(
train_data,train_target,test_size=0.4, random_state=0,stratify=y_train)
- train_data:被划分的样本特征集
- train_target:被划分的样本标签
- test_size/train_size:如果是浮点数,在0-1之间,表示样本占比;如果是整数的话就是样本的数量。
- random_state:是随机数的种子,控制随机状态。
随机数种子:其实就是该组随机数的编号,在需要重复试验的时候,保证得到一组一样的随机数,种子(数值)不同产生的种子不同,当不填或者为None时每次产生的随机数不同,为0时也是相同的(有的博客说不同,试过是一样的) - shuffle:是否打乱数据的顺序,再划分,默认True。
- stratify:none或者array/series类型的数据,表示按这列进行分层采样。
将stratify=X就是按照X中的比例分配
将stratify=y就是按照y中的比例分配
sklearn.tree.DecisionTreeClassifier
决策树分类和回归(下面),篇幅过长见:决策树 sklearn 参数说明
sklearn.tree.DecisionTreeRegressor
记录自己的学习过程,方便日后查阅,如有不对的地方还请指教!如果你喜欢欢迎点赞、评论\(^o^)/~