西瓜书组队学习第一章,绪论
基本术语
数据集: 所有数据的集合成为一个数据集 data set
示例/样本: 一条记录,即一行数据
属性/特征: 描述事物的某一性质,比如西瓜的颜色属性,其实就是列名
属性值: 一个属性可能的取值范围,比如西瓜的颜色属性值有 青绿、乌黑
属性空间/样本空间: 所有属性构成的空间,比如一个西瓜有颜色、大小、敲声三个属性,就构成一个三维空间
特征向量: 一个示例用向量表示
维数:样本的属性个数
标记: 示例结果的信息,即要求解的y
假设: 学得模型对应了关于数据的某种潜在规律,被称为假设,这种潜在规律自身被称为真相或真实
训练集:训练模型使用的数据叫训练集
测试集:用训练集训练处模型后,被预测的样本叫测试集/测试样本
分类: 学习任务是预测y-离散值
回归: 学习任务是预测y-连续值
监督学习: 有标记信息,比如决策树。分类和回归都属于监督学习
无监督学习:无标记信息,比如聚类
泛化能力: 最终得到的模型适用于新样本的能力。模型是基于已有数据训练并测试的,但是最后还是要用来预测今后实际的未知的数据
假设空间
所有假设的集合
归纳偏好
当存在几个训练集得出的假设一致时,我们对其中某一假设进行偏好设置,从而确定唯一真相