先来看看思维导图:
对于机器学习中的数据集:
对于数据集需要了解:
1.首先是什么样的数据集
2.数据集的行—-样本
3.数据集的列—特征
4.特征组成的空间——特征或属性空间
5.组成属性空间中的点—特征或属性向量
6.将数据集切分成训练集和测试集
7.使用训练集+算法构成模型解决实际问题
8.误差:进行校验结果情况
9.对于非数值的特征,需要进行特征转换
具体概念:
(1)数据集 dataset
(2)每一行的数据叫样本数
(3)除最后一列标签列外,每一列的数据叫特征或属性
(4)最后一列叫标签列,样本所属类别
(5)属性(特征)空间:这里由3个特征张成的属性空间
(6)特征向量:构成特征空间的每一行的特征数据
(7)训练数据:由输入工《特征)和输出Y(标签)构成
(8)训练(过程):从数据中学得模型的过程叫做“学习”或“训练”。训练过程
中使用的数据叫做训练数据
9)测试样本:被预测的样本数据,由测试数据和类标签构成
10)测试数据:仅有输入的x构成,根据模型得到预测Labal信息。
(11)预测:学习完模型之后,由测试数据代入模型进行预测,得到预测值
(12)预测值和真实值的差距的评判标准
错误率:错误样本数占总体样本的比例
准确率:1-错误率
误差:模型的实际输出和真实值的差距
训练误差:学习器在训练样本上的误差
泛化误差:学习器在新的样本上的误差
对于非数值的特征,需要进行特征转换,有两种转换方式
1.labelencoder标签编码
2.onehot encoder独热编码