机器学习之数据集

最新推荐文章于 2025-07-14 20:07:06 发布

kokopop007

最新推荐文章于 2025-07-14 20:07:06 发布

阅读量3.2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：数据集机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kokopop007/article/details/100148635

机器学习专栏收录该内容

8 篇文章

订阅专栏

先来看看思维导图：

在这里插入图片描述

对于机器学习中的数据集：

在这里插入图片描述

对于数据集需要了解：

1.首先是什么样的数据集
2.数据集的行—-样本
3.数据集的列—特征
4.特征组成的空间——特征或属性空间
5.组成属性空间中的点—特征或属性向量
6.将数据集切分成训练集和测试集
7.使用训练集+算法构成模型解决实际问题
8.误差：进行校验结果情况
9.对于非数值的特征，需要进行特征转换

具体概念：

(1)数据集 dataset
(2)每一行的数据叫样本数
(3)除最后一列标签列外,每一列的数据叫特征或属性
(4)最后一列叫标签列,样本所属类别
(5)属性(特征)空间:这里由3个特征张成的属性空间
(6)特征向量:构成特征空间的每一行的特征数据
(7)训练数据:由输入工《特征)和输出Y(标签)构成
(8)训练(过程):从数据中学得模型的过程叫做“学习”或“训练”。训练过程
中使用的数据叫做训练数据
9)测试样本:被预测的样本数据,由测试数据和类标签构成
10)测试数据:仅有输入的x构成,根据模型得到预测Labal信息。
(11)预测:学习完模型之后,由测试数据代入模型进行预测,得到预测值
(12)预测值和真实值的差距的评判标准
错误率:错误样本数占总体样本的比例
准确率:1-错误率
误差:模型的实际输出和真实值的差距
训练误差:学习器在训练样本上的误差
泛化误差:学习器在新的样本上的误差

对于非数值的特征，需要进行特征转换，有两种转换方式

1.labelencoder标签编码

2.onehot encoder独热编码

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。