二、Scikit-Learn简介

本文介绍了Scikit-Learn库的数据表示方式,包括数据表、特征矩阵和目标数组的概念。此外,详细阐述了Scikit-Learn的评估器API,以有监督学习为例展示了模型的选择、配置、拟合和预测过程,并提供了线性回归的示例。还涵盖了鸢尾花数据集的分类、降维和聚类应用。
摘要由CSDN通过智能技术生成

参考url:

https://jakevdp.github.io/PythonDataScienceHandbook/index.html

Scikit-Learn为各种常用机器学习算法提供了高效版本,因其干净、统一、管道命令式的API而独具特色,且其在线文档实用、完整。

1、Scikit-Learn的数据表示

  Scikit-Learn认为数据表示最好的方法就是用数据表的形式。

  1、数据表

    基本的数据表就是二维网格数据,其中的每一行表示数据集中的每个样本,而列表示构成每个样本的相关特征。

    

     其中的每行数据表示每朵被观察的鸢尾花,行数表示数据集中记录的鸢尾花总数

    一般情况下,会将这个矩阵的行称为样本(samples),行数记为n_samples。

    其中的每列数据表示每个样本某个特征的量化值

    一般情况下,会将矩阵的列称为特征(features),列数记为n_features。

  2、特征矩阵

      数据表布局通过二维数组或矩阵的形式将信息清晰地表达出来,则把这类矩阵称为特征矩阵。

      特征矩阵通常被简记为变量X,它是维度为[n_samples,n_features]的二维矩阵,通常可以用NumPy数组或Pandas的DataFrame来表示,不过Scikit-Learn也支持SciPy的稀疏矩阵。

      样本(即每一行)通常是值数据集中的每个对象,是任何可以通过一组量化方法进行测量的实体。

      特征(即每一列)通常是指每个样本都具有的某种量化观测值,一般情况下为实数,有时为布尔类型或离散值。

  3、目标数组

      一个标签或目标数组,通常简记为y。

      目标数组一般是一维数组,其长度就是样本总数n_samples,通常都用一维的numpy数组或pandas的Series表示。

      目标数组可以是连续的数值类型,也可以是离散的类型/标签。

      区分目标数组的特征与特征矩阵中的特征列:

        目标数组的特征通常是我们希望从数据中预测的量化结果,即y是统计学中的因变量。

        

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值