机器学习之Sklearn基础

机器学习之Sklearn基础

1 数据集的划分(cv的生成)

# 1 kFlod\stratifiedKFold k折交叉验证划分
import numpy as np
from sklearn.model_selection import KFold
# KFold
x = np.random.randint(10, 100, size=(10, 2))
y = np.arange(1, 11, step=1)
kf = KFold(n_splits=2)  # n是折数
kf.get_n_splits()  # 这个函数用来获取KFlod实例中n_splits 的折数
print(kf)

# kf.split()函数返回样本索引的元组迭代器
for train_index ,test_index in kf.split(x):
	print('train_index:',train_index,f'test_index:{test_index}')
 	'''根据返回的索引切分数据集'''
 	x_train,x_test = x[train_index],x[test_index]
 	y_train,y_test = y[train_index],y[test_index]
 	print(f'x_train{x_train}\nx_test{x_test}')
 	print(f'y_train{y_train}\ny_test{y_test}')

# StratifiedKFold 根据标签的比例去划分样本,子样本中不会改变原始数据中各样本种类的比例
from sklearn.model_selection import StratifiedKFold

x = np.random.randint(10, 100, size=(10, 2))
y = np.array([1,1,1,1,1,2,2,2,2,2])  # 原始数据中样本有两个类别,比例是11

skf = StratifiedKFold(n_splits=3)  # n是折数 n要始终小于y中最小的类别数目
skf.get_n_splits()  # 这个函数用来获取StratifiedKFold.get_n_splits()实例中n_splits 的折数


# StratifiedKFold.split()函数返回样本索引的元组迭代器
for train_index, test_index in skf.split(x, y):
 	print('train_index:', train_index, f'test_index:{test_index}') # 通过索引知道训练数据集和测试数据集中的两类样本种类比值也是11
 	'''根据返回的索引切分数据集'''
 	x_train, x_test = x[train_index], x[test_index]
 	y_train, y_test = y[train_index], y[test_index]
	# print(f'x_train{x_train}\nx_test{x_test}')
	# print(f'y_train{y_train}\ny_test{y_test}')
----------------------------------------------------------
# 2 留一法或者留P法 leaveOneOut\leavePOut
import numpy as np
from  sklearn.model_selection import LeaveOneOut

x = np.random.randint(10, 100, size=(10, 2))
y = np.arange(1, 11, step=1)
loo = LeaveOneOut()
loo.get_n_splits(x)
print(loo)
for train_index,test_index in loo.split(x):
 	print(f'Train:{train_index},Test{test_index}')

# LeavePOut
import numpy as np
from  sklearn.model_selection import LeavePOut
x = np.random.randint(10, 100, size=(10, 2))
y = np.arange(1, 11, step=1)
lpo = LeavePOut(p = 3) # 参数p是指每次留出几个样本做测试
lpo.get_n_splits(x)
print(lpo)
for train_index,test_index in lpo.split(x):
 	print(f'Train:{train_index},Test{test_index}')

-----------------------------------------------------
3 随机划分 ShuffleSplit\StratifiedSplit
import numpy as np
from  sklearn.model_selection import ShuffleSplit
x = np.random.randint(10, 100, size=(10, 2))
y = np.arange(1, 11, step=1)
rs = ShuffleSplit(n_splits=3,test_size=0.3,random_state = 0) # 参数n_split = 3 是三折交叉验证,
# test_size = 3 是测试样本占的比例,random_state 是指定随机种子,以保证每次选取的样本是一样的
rs.get_n_splits()
print(rs)
# rs.split()函数同样是返回划分后的训练集和测试集的索引
for train_index,test_index in rs.split(x):
	print(f'Train:{train_index},Test:{test_index}')

# StratifiedShuffleSplit 这个类的作用是同StratifiedKFold的作用一样  是返回 样本类型比值同原始数据不变的索引数组

2 模型评估方法(scoring生成)

#  sklearn 模型预测性能的评估方法
# 1 estimator 对象的score方法
# 2 交叉验证中是用 scoring 参数
# 3 使用sklearn.metric

# 1 estimator 对象的score方法
# score()内部会调用predict函数获得y_predict
# 然后传入真实的响应进行比较,计算得分
------------------------------------------
# 2 使用estimator的score函数来评估模型的性能,默认情况下:
# 分类器对应于准确率:sklearn.metric.accracy_score
# 回归器对应于均方误差:sklearn.metric.r2_score

# 在交叉验证中使用scoring参数  可用的类型都放在 sklearn.metric.SCORERS
# scoring 参数字符串
# 1 分类器
# accuracy 准确率
# average_precision
# f1 二分类
# f1_micro
# neg_log_loss

# 2 聚类
# adjusted_rand_score
# 3 回归
# neg_mean_absolute_error
# neg_mean_squared_error
# neg_median_absolute_error
# r2

# 例子:
from sklearn import svm,datasets
from sklearn.model_selection import cross_val_score
iris = datasets.load_iris()
x,y = iris.data,iris.target
clf = svm.SVC(probability=True,random_state=0)
neg_loss = cross_val_score(clf,x,y,scoring='neg_log_loss')
print(neg_loss)


# 自定义scoring参数
# 根据自定义自己的度量指标然后用 make_scorer 函数转换成符合scoring参数要求的形式
# 例子:
import numpy as np
from sklearn.metrics import make_scorer  # 导入相关类型
def my_custom_func(ground_truth,predictions):
     diff = np.abs(ground_truth-predictions).max()
     return  np.log(1+diff)
loss =make_scorer(my_custom_func,greater_is_better = False)
#返回值是一种score对象 # 参数1 是自定义的评价函数,参数2 greater_is_better 默认是True
# 意思是评价值越大越好,因为我们定义的是损失函数,所以要将这个改为False

3 超参数的优化

# 超参数 可以通过网格搜索、随机采样的方式来寻找最优的组合
# 网格搜索交叉验证(GridSearchCV):穷举 参数1 estimator ,参数2 params_grid,参数3 cv 交叉验证方式,默认是3折交叉验证,也可以自己生成交叉验证的迭代器,scoring
# 随机采样交叉验证(RandomizedSearchCV):依据某种分布对参数空间采样,随机得到一些候选的参数组合方案 参数与GridSearchCV几乎一致 特别的参数 n_iter表示随机采样的次数
# 例如:
from sklearn import svm,datasets
from sklearn.model_selection import GridSearchCV
iris = datasets.load_iris()
parameters = {
   'kernel':('rbf','linear')
  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
【优质项目推荐】 1、项目代码均经过严格本地测试,运行OK,确保功能稳定后才上传平台。可放心下载并立即投入使用,若遇到任何使用问题,随时欢迎私信反馈与沟通,博主会第一时间回复。 2、项目适用于计算机相关专业(如计科、信息安全、数据科学、人工智能、通信、物联网、自动化、电子信息等)的在校学生、专业教师,或企业员工,小白入门等都适用。 3、该项目不仅具有很高的学习借鉴价值,对于初学者来说,也是入门进阶的绝佳选择;当然也可以直接用于 毕设、课设、期末大作业或项目初期立项演示等。 3、开放创新:如果您有一定基础,且热爱探索钻研,可以在此代码基础上二次开发,进行修改、扩展,创造出属于自己的独特应用。 欢迎下载使用优质资源!欢迎借鉴使用,并欢迎学习交流,共同探索编程的无穷魅力! 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip 基于业务逻辑生成特征变量python实现源码+数据集+超详细注释.zip
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值