scikit-learn算法分类、模块、建模流程及设计原则

最新推荐文章于 2022-07-16 20:34:59 发布

Zen of Data Analysis

最新推荐文章于 2022-07-16 20:34:59 发布

阅读量379

点赞数

分类专栏：机器学习 Python 算法文章标签：机器学习算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gracejpw/article/details/101742213

版权

机器学习同时被 3 个专栏收录

88 篇文章 32 订阅

订阅专栏

85 篇文章 5 订阅

订阅专栏

58 篇文章 2 订阅

订阅专栏

scikit-learn机器学习库算法分类及模块

scikit-learn，简称sklearn，作为Python中重要的机器学习库，支持包括分类、回归、降维和聚类四大机器学习算法，以及特征提取、数据预处理和模型评估三大模块。

sklearn基本建模流程

实例化建立评估模型对象->通过模型接口训练模型->通过模型接口提取需要的信息。

主要设计原则

一致性

所有对象共享一个简单一致的界面(接口)。

拟合器：fit()方法

基于数据估算参数的任意对象，使用的参数是一个数据集(对应特征数据集X, 有监督算法还需要一个标签数据集y)，
引导估算过程的任意其他参数称为超参数（所谓"超参数"，就是需要人为输入，算法不能通过直接计算得出的参数），必须设置为实例变量。

转换器：transform()方法

使用估算器转换数据集，转换过程依赖于学习参数。

可以使用便捷方式：fit_transform()，相当于先fit()再transform()。(fit_transform有时被优化过，速度更快)

预测器：predict()方法

使用估算器预测新数据，返回包含预测结果的数据。

score()方法

用于度量给定测试集的预测效果的好坏。

其结果为：连续y使用R²,分类y使用准确率accuracy，其中：

R² =（1-u/v）,
u=((y_true - y_pred) ** 2).sum(),
v=((y_true - y_true.mean()) ** 2).sum()；

accuracy=分类算法正确的分类数/总分类数。

监控

检查所有参数，所有估算器的超参数可以通过公共实例变量访问，所有估算器的学习参数都可以通过有下划线后缀的公共实例变量访问。

防止类扩散

对象类型固定，数据集被表示为Numpy数组或Scipy稀疏矩阵，超参是普通的Python字符或数字。

合成

现有的构件尽可能重用，可以轻松创建一个流水线Pipeline。

合理默认值

大多数参数提供合理默认值，可以轻松搭建一个基本的工作系统。

Zen of Data Analysis

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scikit-learn算法分类、模块、建模流程及设计原则

scikit-learn算法分类、模块、建模流程及设计原则
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。