西瓜书
L1:
机器主要内容是在计算机上从数据中产生”模型(model)”的算法,即学习算法(learning algorithm),有了学习算法我们可以把经验(数据)提供给它,它能提供相应的判断。如果说计算机科学是研究关于”算法”的学问,那么机器学习就是研究关于”学习算法”的学问。
机器学习的目标是使学得的模型能很好的适用于新样本而不仅仅只在训练样本上工作得好
模型(model):泛指从数据中学得的结果
数据集(data set):记录的集合
示例(instance)/样本(sample):关于一个事件或对象的描述
属性(attribute)/特征(feature):反应事件或对象在某方面的表现或性质的事项
属性值(attribute value):属性上的取值
属性空间(attribute space)/样本空间(sample space):属性张成的空间
特征向量(feature vector):把一个示例也称作特征向量
学习(learning)/训练(training):从数据中学得模型的过程,通过执行某个学习算法来完成
训练数据(training data):训练过程使用的数据
训练样本(training sample):训练数据中的每一个样本
训练集(training set):训练样本形成的集合
假设(hypothesis):学得模型对应了关于数据的某种潜在的规律
真相/真实(ground-truth):假设中的潜在规律自身
标记(label):关于示例结果的讯息
样例(example):拥有标记信息的示例,一般用(xi, yi)表示第i个样例,其中yi, ∈Y是示例xi的标记,Y是所有标记的集合,也称为”标记空间(label space)或输出空间”
测试(testing):学得模型后使用其进行预测的过程
测试样本(testing sample):被预测的样本
泛化(generalization):学得模型适用