机器学习之Sklearn基础
1 数据集的划分(cv的生成)
# 1 kFlod\stratifiedKFold k折交叉验证划分
import numpy as np
from sklearn.model_selection import KFold
# KFold
x = np.random.randint(10, 100, size=(10, 2))
y = np.arange(1, 11, step=1)
kf = KFold(n_splits=2) # n是折数
kf.get_n_splits() # 这个函数用来获取KFlod实例中n_splits 的折数
print(kf)
# kf.split()函数返回样本索引的元组迭代器
for train_index ,test_index in kf.split(x):
print('train_index:',train_index,f'test_index:{test_index}')
'''根据返回的索引切分数据集'''
x_train,x_test = x[train_index],x[test_index]
y_train,y_test = y[train_index],y[test_index]
print(f'x_train{x_train}\nx_test{x_test}')
print(f'y_train{y_train}\ny_test{y_test}')
# StratifiedKFold 根据标签的比例去划分样本,子样本中不会改变原始数据中各样本种类的比例
from sklearn.model_selection import StratifiedKFold
x = np.random.randint(10, 100, size=(10, 2))
y = np.array([1,1,1,1,1,2,2,2,2,2]) # 原始数据中样本有两个类别,比例是1:1
skf = StratifiedKFold(n_splits=3) # n是折数 n要始终小于y中最小的类别数目
skf.get_n_splits() # 这个函数用来获取StratifiedKFold.get_n_splits()实例中n_splits 的折数
# StratifiedKFold.split()函数返回样本索引的元组迭代器
for train_index, test_index in skf.split(x, y):
print('train_index:', train_index, f'test_index:{test_index}') # 通过索引知道训练数据集和测试数据集中的两类样本种类比值也是1:1
'''根据返回的索引切分数据集'''
x_train, x_test = x[train_index], x[test_index]
y_train, y_test = y[train_index], y[test_index]
# print(f'x_train{x_train}\nx_test{x_test}')
# print(f'y_train{y_train}\ny_test{y_test}')
----------------------------------------------------------
# 2 留一法或者留P法 leaveOneOut\leavePOut
import numpy as np
from sklearn.model_selection import LeaveOneOut
x = np.random.randint(10, 100, size=(10, 2))
y = np.arange(1, 11, step=1)
loo = LeaveOneOut()
loo.get_n_splits(x)
print(loo)
for train_index,test_index in loo.split(x):
print(f'Train:{train_index},Test{test_index}')
# LeavePOut
import numpy as np
from sklearn.model_selection import LeavePOut
x = np.random.randint(10, 100, size=(10, 2))
y = np.arange(1, 11, step=1)
lpo = LeavePOut(p = 3) # 参数p是指每次留出几个样本做测试
lpo.get_n_splits(x)
print(lpo)
for train_index,test_index in lpo.split(x):
print(f'Train:{train_index},Test{test_index}')
-----------------------------------------------------
3 随机划分 ShuffleSplit\StratifiedSplit
import numpy as np
from sklearn.model_selection import ShuffleSplit
x = np.random.randint(10, 100, size=(10, 2))
y = np.arange(1, 11, step=1)
rs = ShuffleSplit(n_splits=3,test_size=0.3,random_state = 0) # 参数n_split = 3 是三折交叉验证,
# test_size = 3 是测试样本占的比例,random_state 是指定随机种子,以保证每次选取的样本是一样的
rs.get_n_splits()
print(rs)
# rs.split()函数同样是返回划分后的训练集和测试集的索引
for train_index,test_index in rs.split(x):
print(f'Train:{train_index},Test:{test_index}')
# StratifiedShuffleSplit 这个类的作用是同StratifiedKFold的作用一样 是返回 样本类型比值同原始数据不变的索引数组
2 模型评估方法(scoring生成)
# sklearn 模型预测性能的评估方法
# 1 estimator 对象的score方法
# 2 交叉验证中是用 scoring 参数
# 3 使用sklearn.metric
# 1 estimator 对象的score方法
# score()内部会调用predict函数获得y_predict
# 然后传入真实的响应进行比较,计算得分
------------------------------------------
# 2 使用estimator的score函数来评估模型的性能,默认情况下:
# 分类器对应于准确率:sklearn.metric.accracy_score
# 回归器对应于均方误差:sklearn.metric.r2_score
# 在交叉验证中使用scoring参数 可用的类型都放在 sklearn.metric.SCORERS
# scoring 参数字符串
# 1 分类器
# accuracy 准确率
# average_precision
# f1 二分类
# f1_micro
# neg_log_loss
# 2 聚类
# adjusted_rand_score
# 3 回归
# neg_mean_absolute_error
# neg_mean_squared_error
# neg_median_absolute_error
# r2
# 例子:
from sklearn import svm,datasets
from sklearn.model_selection import cross_val_score
iris = datasets.load_iris()
x,y = iris.data,iris.target
clf = svm.SVC(probability=True,random_state=0)
neg_loss = cross_val_score(clf,x,y,scoring='neg_log_loss')
print(neg_loss)
# 自定义scoring参数
# 根据自定义自己的度量指标然后用 make_scorer 函数转换成符合scoring参数要求的形式
# 例子:
import numpy as np
from sklearn.metrics import make_scorer # 导入相关类型
def my_custom_func(ground_truth,predictions):
diff = np.abs(ground_truth-predictions).max()
return np.log(1+diff)
loss =make_scorer(my_custom_func,greater_is_better = False)
#返回值是一种score对象 # 参数1 是自定义的评价函数,参数2 greater_is_better 默认是True
# 意思是评价值越大越好,因为我们定义的是损失函数,所以要将这个改为False
3 超参数的优化
# 超参数 可以通过网格搜索、随机采样的方式来寻找最优的组合
# 网格搜索交叉验证(GridSearchCV):穷举 参数1 estimator ,参数2 params_grid,参数3 cv 交叉验证方式,默认是3折交叉验证,也可以自己生成交叉验证的迭代器,scoring
# 随机采样交叉验证(RandomizedSearchCV):依据某种分布对参数空间采样,随机得到一些候选的参数组合方案 参数与GridSearchCV几乎一致 特别的参数 n_iter表示随机采样的次数
# 例如:
from sklearn import svm,datasets
from sklearn.model_selection import GridSearchCV
iris = datasets.load_iris()
parameters = {
'kernel':('rbf','linear')