scikit-learn算法分类、模块、建模流程及设计原则

85 篇文章 5 订阅
58 篇文章 2 订阅

scikit-learn机器学习库算法分类及模块

scikit-learn,简称sklearn,作为Python中重要的机器学习库,支持包括分类、回归、降维和聚类四大机器学习算法,以及特征提取、数据预处理和模型评估三大模块。

sklearn基本建模流程

实例化建立评估模型对象->通过模型接口训练模型->通过模型接口提取需要的信息。

主要设计原则

一致性

所有对象共享一个简单一致的界面(接口)。

拟合器:fit()方法

基于数据估算参数的任意对象,使用的参数是一个数据集(对应特征数据集X, 有监督算法还需要一个标签数据集y),
引导估算过程的任意其他参数称为超参数(所谓"超参数",就是需要人为输入,算法不能通过直接计算得出的参数),必须设置为实例变量。

转换器:transform()方法

使用估算器转换数据集,转换过程依赖于学习参数。

可以使用便捷方式:fit_transform(),相当于先fit()再transform()。(fit_transform有时被优化过,速度更快)

预测器:predict()方法

使用估算器预测新数据,返回包含预测结果的数据。

score()方法

用于度量给定测试集的预测效果的好坏。

其结果为:连续y使用R2,分类y使用准确率accuracy,其中:

R2 =(1-u/v),
u=((y_true - y_pred) ** 2).sum(),
v=((y_true - y_true.mean()) ** 2).sum();

accuracy=分类算法正确的分类数/总分类数。

监控

检查所有参数,所有估算器的超参数可以通过公共实例变量访问,所有估算器的学习参数都可以通过有下划线后缀的公共实例变量访问。

防止类扩散

对象类型固定,数据集被表示为Numpy数组或Scipy稀疏矩阵,超参是普通的Python字符或数字。

合成

现有的构件尽可能重用,可以轻松创建一个流水线Pipeline。

合理默认值

大多数参数提供合理默认值,可以轻松搭建一个基本的工作系统。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值