机器学习之数据集

先来看看思维导图:

在这里插入图片描述

对于机器学习中的数据集:

在这里插入图片描述

对于数据集需要了解:

1.首先是什么样的数据集
2.数据集的行—-样本
3.数据集的列—特征
4.特征组成的空间——特征或属性空间
5.组成属性空间中的点—特征或属性向量
6.将数据集切分成训练集和测试集
7.使用训练集+算法构成模型解决实际问题
8.误差:进行校验结果情况
9.对于非数值的特征,需要进行特征转换

具体概念:

(1)数据集 dataset
(2)每一行的数据叫样本数
(3)除最后一列标签列外,每一列的数据叫特征或属性
(4)最后一列叫标签列,样本所属类别
(5)属性(特征)空间:这里由3个特征张成的属性空间
(6)特征向量:构成特征空间的每一行的特征数据
(7)训练数据:由输入工《特征)和输出Y(标签)构成
(8)训练(过程):从数据中学得模型的过程叫做“学习”或“训练”。训练过程
中使用的数据叫做训练数据
9)测试样本:被预测的样本数据,由测试数据和类标签构成
10)测试数据:仅有输入的x构成,根据模型得到预测Labal信息。
(11)预测:学习完模型之后,由测试数据代入模型进行预测,得到预测值
(12)预测值和真实值的差距的评判标准
错误率:错误样本数占总体样本的比例
准确率:1-错误率
误差:模型的实际输出和真实值的差距
训练误差:学习器在训练样本上的误差
泛化误差:学习器在新的样本上的误差

对于非数值的特征,需要进行特征转换,有两种转换方式
1.labelencoder标签编码
2.onehot encoder独热编码

在这里插入图片描述
在这里插入图片描述

  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值