二、Scikit-Learn简介

最新推荐文章于 2024-07-21 01:39:27 发布

Norni

最新推荐文章于 2024-07-21 01:39:27 发布

阅读量486

点赞数

文章标签：算法 python 机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Norni/article/details/115714767

版权

本文介绍了Scikit-Learn库的数据表示方式，包括数据表、特征矩阵和目标数组的概念。此外，详细阐述了Scikit-Learn的评估器API，以有监督学习为例展示了模型的选择、配置、拟合和预测过程，并提供了线性回归的示例。还涵盖了鸢尾花数据集的分类、降维和聚类应用。

摘要由CSDN通过智能技术生成

参考url:

https://jakevdp.github.io/PythonDataScienceHandbook/index.html

Scikit-Learn为各种常用机器学习算法提供了高效版本，因其干净、统一、管道命令式的API而独具特色，且其在线文档实用、完整。

1、Scikit-Learn的数据表示

　　Scikit-Learn认为数据表示最好的方法就是用数据表的形式。

　　1、数据表

　　　　基本的数据表就是二维网格数据，其中的每一行表示数据集中的每个样本，而列表示构成每个样本的相关特征。

　　　　

　　　　其中的每行数据表示每朵被观察的鸢尾花，行数表示数据集中记录的鸢尾花总数

　　　　一般情况下，会将这个矩阵的行称为样本(samples)，行数记为n_samples。

　　　　其中的每列数据表示每个样本某个特征的量化值

　　　　一般情况下，会将矩阵的列称为特征(features)，列数记为n_features。

　　2、特征矩阵

　　　　　　数据表布局通过二维数组或矩阵的形式将信息清晰地表达出来，则把这类矩阵称为特征矩阵。

　　　　　　特征矩阵通常被简记为变量X，它是维度为[n_samples,n_features]的二维矩阵，通常可以用NumPy数组或Pandas的DataFrame来表示，不过Scikit-Learn也支持SciPy的稀疏矩阵。

　　　　　　样本(即每一行)通常是值数据集中的每个对象，是任何可以通过一组量化方法进行测量的实体。

　　　　　　特征(即每一列)通常是指每个样本都具有的某种量化观测值，一般情况下为实数，有时为布尔类型或离散值。

　　3、目标数组

　　　　　　一个标签或目标数组，通常简记为y。

　　　　　　目标数组一般是一维数组，其长度就是样本总数n_samples，通常都用一维的numpy数组或pandas的Series表示。

　　　　　　目标数组可以是连续的数值类型，也可以是离散的类型/标签。

　　　　　　区分目标数组的特征与特征矩阵中的特征列：

　　　　　　　　目标数组的特征通常是我们希望从数据中预测的量化结果，即y是统计学中的因变量。

　　　　　　　　

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
二、Scikit-Learn简介

参考url:https://jakevdp.github.io/PythonDataScienceHandbook/index.htmlScikit-Learn为各种常用机器学习算法提供了高效版本，因其干净、统一、管道命令式的API而独具特色，且其在线文档实用、完整。1、Scikit-Learn的数据表示　　Scikit-Learn认为数据表示最好的方法就是用数据表的形式。　　1、数据...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。