机器学习之Sklearn基础

最新推荐文章于 2024-05-04 11:31:17 发布

做不来舔狗

最新推荐文章于 2024-05-04 11:31:17 发布

阅读量634

点赞数 2

分类专栏： Python基础知识 sklearn基础

本文链接：https://blog.csdn.net/qq_40242609/article/details/98342955

版权

机器学习之Sklearn基础

1 数据集的划分(cv的生成)

# 1 kFlod\stratifiedKFold k折交叉验证划分
import numpy as np
from sklearn.model_selection import KFold
# KFold
x = np.random.randint(10, 100, size=(10, 2))
y = np.arange(1, 11, step=1)
kf = KFold(n_splits=2)  # n是折数
kf.get_n_splits()  # 这个函数用来获取KFlod实例中n_splits 的折数
print(kf)

# kf.split（）函数返回样本索引的元组迭代器
for train_index ,test_index in kf.split(x):
	print('train_index:',train_index,f'test_index:{test_index}')
 	'''根据返回的索引切分数据集'''
 	x_train,x_test = x[train_index],x[test_index]
 	y_train,y_test = y[train_index],y[test_index]
 	print(f'x_train{x_train}\nx_test{x_test}')
 	print(f'y_train{y_train}\ny_test{y_test}')

# StratifiedKFold 根据标签的比例去划分样本，子样本中不会改变原始数据中各样本种类的比例
from sklearn.model_selection import StratifiedKFold

x = np.random.randint(10, 100, size=(10, 2))
y = np.array([1,1,1,1,1,2,2,2,2,2])  # 原始数据中样本有两个类别，比例是1：1

skf = StratifiedKFold(n_splits=3)  # n是折数 n要始终小于y中最小的类别数目
skf.get_n_splits()  # 这个函数用来获取StratifiedKFold.get_n_splits()实例中n_splits 的折数


# StratifiedKFold.split（）函数返回样本索引的元组迭代器
for train_index, test_index in skf.split(x, y):
 	print('train_index:', train_index, f'test_index:{test_index}') # 通过索引知道训练数据集和测试数据集中的两类样本种类比值也是1：1
 	'''根据返回的索引切分数据集'''
 	x_train, x_test = x[train_index], x[test_index]
 	y_train, y_test = y[train_index], y[test_index]
	# print(f'x_train{x_train}\nx_test{x_test}')
	# print(f'y_train{y_train}\ny_test{y_test}')
----------------------------------------------------------
# 2 留一法或者留P法 leaveOneOut\leavePOut
import numpy as np
from  sklearn.model_selection import LeaveOneOut

x = np.random.randint(10, 100, size=(10, 2))
y = np.arange(1, 11, step=1)
loo = LeaveOneOut()
loo.get_n_splits(x)
print(loo)
for train_index,test_index in loo.split(x):
 	print(f'Train:{train_index},Test{test_index}')

# LeavePOut
import numpy as np
from  sklearn.model_selection import LeavePOut
x = np.random.randint(10, 100, size=(10, 2))
y = np.arange(1, 11, step=1)
lpo = LeavePOut(p = 3) # 参数p是指每次留出几个样本做测试
lpo.get_n_splits(x)
print(lpo)
for train_index,test_index in lpo.split(x):
 	print(f'Train:{train_index},Test{test_index}')

-----------------------------------------------------
3 随机划分 ShuffleSplit\StratifiedSplit
import numpy as np
from  sklearn.model_selection import ShuffleSplit
x = np.random.randint(10, 100, size=(10, 2))
y = np.arange(1, 11, step=1)
rs = ShuffleSplit(n_splits=3,test_size=0.3,random_state = 0) # 参数n_split = 3 是三折交叉验证，
# test_size = 3 是测试样本占的比例，random_state 是指定随机种子，以保证每次选取的样本是一样的
rs.get_n_splits()
print(rs)
# rs.split()函数同样是返回划分后的训练集和测试集的索引
for train_index,test_index in rs.split(x):
	print(f'Train:{train_index},Test:{test_index}')

# StratifiedShuffleSplit 这个类的作用是同StratifiedKFold的作用一样  是返回 样本类型比值同原始数据不变的索引数组

2 模型评估方法（scoring生成）

#  sklearn 模型预测性能的评估方法
# 1 estimator 对象的score方法
# 2 交叉验证中是用 scoring 参数
# 3 使用sklearn.metric

# 1 estimator 对象的score方法
# score()内部会调用predict函数获得y_predict
# 然后传入真实的响应进行比较，计算得分
------------------------------------------
# 2 使用estimator的score函数来评估模型的性能，默认情况下：
# 分类器对应于准确率：sklearn.metric.accracy_score
# 回归器对应于均方误差：sklearn.metric.r2_score

# 在交叉验证中使用scoring参数  可用的类型都放在 sklearn.metric.SCORERS
# scoring 参数字符串
# 1 分类器
# accuracy 准确率
# average_precision
# f1 二分类
# f1_micro
# neg_log_loss

# 2 聚类
# adjusted_rand_score
# 3 回归
# neg_mean_absolute_error
# neg_mean_squared_error
# neg_median_absolute_error
# r2

# 例子：
from sklearn import svm,datasets
from sklearn.model_selection import cross_val_score
iris = datasets.load_iris()
x,y = iris.data,iris.target
clf = svm.SVC(probability=True,random_state=0)
neg_loss = cross_val_score(clf,x,y,scoring='neg_log_loss')
print(neg_loss)


# 自定义scoring参数
# 根据自定义自己的度量指标然后用 make_scorer 函数转换成符合scoring参数要求的形式
# 例子：
import numpy as np
from sklearn.metrics import make_scorer  # 导入相关类型
def my_custom_func(ground_truth,predictions):
     diff = np.abs(ground_truth-predictions).max()
     return  np.log(1+diff)
loss =make_scorer(my_custom_func,greater_is_better = False)
#返回值是一种score对象 # 参数1 是自定义的评价函数，参数2 greater_is_better 默认是True
# 意思是评价值越大越好，因为我们定义的是损失函数，所以要将这个改为False

3 超参数的优化

# 超参数 可以通过网格搜索、随机采样的方式来寻找最优的组合
# 网格搜索交叉验证(GridSearchCV)：穷举 参数1 estimator ,参数2 params_grid，参数3 cv 交叉验证方式，默认是3折交叉验证，也可以自己生成交叉验证的迭代器，scoring
# 随机采样交叉验证(RandomizedSearchCV)：依据某种分布对参数空间采样，随机得到一些候选的参数组合方案 参数与GridSearchCV几乎一致 特别的参数 n_iter表示随机采样的次数
# 例如：
from sklearn import svm,datasets
from sklearn.model_selection import GridSearchCV
iris = datasets.load_iris()
parameters = {
   'kernel':('rbf','linear')

最低0.47元/天解锁文章

做不来舔狗

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
机器学习之Sklearn基础

机器学习之Sklearn基础1 数据集的划分(cv的生成)# 1 kFlod\stratifiedKFold k折交叉验证划分import numpy as npfrom sklearn.model_selection import KFold# KFoldx = np.random.randint(10, 100, size=(10, 2))y = np.arange(1, 11,...
复制链接

扫一扫