机器学习（1）机器学习基础 && 鸢尾花数据集

最新推荐文章于 2024-07-24 23:51:07 发布

_(*^▽^*)_

最新推荐文章于 2024-07-24 23:51:07 发布

阅读量1.7k

点赞数 2

分类专栏： # 机器学习文章标签： python 机器学习 sklearn 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/great_yzl/article/details/120156277

版权

机器学习专栏收录该内容

22 篇文章 16 订阅

订阅专栏

本文介绍了机器学习的基础理论，包括学习过程、分类和数据集返回值。通过鸢尾花数据集进行实战，展示了如何获取数据、划分训练集与测试集，并对数据集进行了简单的展示。主要涉及数据预处理、模型训练和评估等关键步骤。

摘要由CSDN通过智能技术生成

目录

一、机器学习基础理论

1、机器学习过程

2、机器学习分类

3、数据集返回值介绍

二、鸢尾花数据集（实战）

1、首先是获取数据集

2、显示数据集信息（可以不要）

三、数据集划分

1、数据集划分API

2、代码及效果

一、机器学习基础理论

1、机器学习过程

获取数据
数据处理
特征工程（特征值、目标值）(包括标准化)
算法训练 -> 得到模型
模型评估

2、机器学习分类（有监督/无监督）

学习阶段可用数据集：

sklearn、kaggle、UCI

3、数据集返回值介绍

load返回小数据集，fetch返回大数据集。

返回datasets.base.Bunch数据类型（字典格式）

标签（target）：目标值

特征（data）：特征值

返回方式1：dict['key']

返回方式2：dict.key

二、鸢尾花数据集（实战）

以上三种鸢尾花，分别为鸢尾花的三个标签。

1、首先是获取数据集

# 获取数据集（鸢尾花）
    iris = load_iris()

2、显示数据集信息（可以不要）

# 显示数据集信息
    Show_Data()

# 显示数据集
def Show_Data():
    # 鸢尾花数据集
    print('鸢尾花数据集\n\n', iris)
    # print('鸢尾花数据集描述\n', iris['DESCR'])

    # 鸢尾花标签
    # print('鸢尾花标签名称\n', iris.target_names)
    # print('鸢尾花标签数组\n', iris.target)

    # 鸢尾花特征值
    # print('鸢尾花特征值名称\n', iris.feature_names)
    # print('鸢尾花特征值\n', iris.data)

    # 数组行、列查看
    # print('鸢尾花特征数组行列\n', iris.data.shape)
    # print('鸢尾花标签数组行列\n', iris.target.shape)

三、数据集划分

为了给后面的模型评估留下数据，这里只能选取一部分数据进行模型训练。

1、数据集划分API

sklearn.model_selection.train_test_split
返回：训练集特征值、测试集特征值、训练集目标值、测试集目标值。

2、代码及效果

# 数据集划分
def Data_Split():
    # 训练集、测试集划分API
    train_data, test_data, train_target, test_target = train_test_split(iris.data, iris.target, test_size=0.2)
    #训练集特征值 测试集特征值 训练集目标值    测试集目标值   训练集测试集划分API  训练集      测试集       测试量

    # 显示（训练集/测试集的特征值/目标值）
    print('训练集特征值：', train_data.shape)
    print('测试集特征值：', test_data.shape)
    print('训练集目标值：', train_target.shape)
    print('测试集目标值：', test_target.shape)

总代码

# 机器学习基础（鸢尾花数据集）
# sklearn.model_selection.train_test_split返回：
# 训练集特征值、测试集特征值、训练集目标值、测试集目标值。
import cv2
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 显示数据集
def Show_Data():
    # 鸢尾花数据集
    print('鸢尾花数据集\n\n', iris)
    # print('鸢尾花数据集描述\n', iris['DESCR'])

    # 鸢尾花标签
    # print('鸢尾花标签名称\n', iris.target_names)
    # print('鸢尾花标签数组\n', iris.target)

    # 鸢尾花特征值
    # print('鸢尾花特征值名称\n', iris.feature_names)
    # print('鸢尾花特征值\n', iris.data)

    # 数组行、列查看
    # print('鸢尾花特征数组行列\n', iris.data.shape)
    # print('鸢尾花标签数组行列\n', iris.target.shape)


# 数据集划分
def Data_Split():
    # 训练集、测试集划分API
    train_data, test_data, train_target, test_target = train_test_split(iris.data, iris.target, test_size=0.2)
    #训练集特征值 测试集特征值 训练集目标值    测试集目标值   训练集测试集划分API  训练集      测试集       测试量

    # 显示（训练集/测试集的特征值/目标值）
    print('训练集特征值：', train_data.shape)
    print('测试集特征值：', test_data.shape)
    print('训练集目标值：', train_target.shape)
    print('测试集目标值：', test_target.shape)


if __name__ == '__main__':
    # 获取数据集（鸢尾花）
    iris = load_iris()

    # 显示数据集信息
    # Show_Data()

    # 数据集划分
    Data_Split()

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习（1）机器学习基础 && 鸢尾花数据集

一、机器学习基础理论1、机器学习过程获取数据数据处理特征工程（特征值、目标值）(也是数据处理) 机器学习算法训练 -> 得到模型模型评估2、机器学习分类学习阶段可用数据集：sklearn、kaggle、UCI3、数据集返回值介绍load返回小数据集，fetch返回大数据集。返回datasets.base.Bunch数据类型（字典格式）标签（target）：目标值特征（data）：特征值返回方式1...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

_(*^▽^*)_ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。