第一次作瓜书笔记 有什么不足还请各位大佬们多多补充
一,机器学习(ML)的概念
在遇到一些问题的时候,我们用构建模型的方法来解决问题。怎么才能让你建立除来的模型更好,准确率更高,适应性更广呢?这就是我们为什么来学习“机器学习”这门学科。机器学习主要研究“模型的算法”也就是“学习算法”,有了这种学习算法,我们就可以将我们模型进行不断地优化,来提升模型。
二,基本术语
进行机器学习之前,我们准备的数据,我们采集了有关于西瓜的数据,以下是对西瓜描述:这些数据被称为”数据集“
每一组数据是对一个西瓜的描述称为“样本”或“示例”
"色泽","根蒂",“敲声”这是西瓜的一些特性被称为“属性”或“特征”
属性对应的“青绿”“蜷缩”“浊响”是”属性值“或”特征值“
属性形成的空间称“属性空间”或“样本空间”也称“输入空间”
“特征向量”在空间中我们将所有的属性值结合起来会有一个对应的点,而每一个点都会对应一个向量坐标
“维数”就是样本中对应有几个属性
“标签”一个样本对应的一个瓜,判断出来是“好瓜”或“坏瓜”,而“好瓜”或“坏瓜”就是这个的标签
学习任务主要分俩大类:一类是“分类”(预测离散值)一类是“回归”(预测连续值)。“分类”就是判断瓜是“好瓜”或“坏瓜”,只有俩种结果被称为“二分类”。在“二分类”中一般称一个类是“正类”,另一个就是“负类”。还有“多分类的任务”,就是涉及俩种以上的类别。“回归”,列如判断一个西瓜的成熟度0.51,0.95 。
“聚类”,我们将训练集中的瓜分成若干组,每一组称为一个“簇”列如“深色瓜”,“浅色瓜”等。这种学习的过程有助于我们更好的对数据规律的掌握 ,在聚类学习的过程中,事先并不知道“深色瓜”,“浅色瓜”这种概念,也没有训练标记。
“监督学习”与“无监督学习”学习任务的俩大类,根据是否拥有标记信息,分类与回归一般是“监督学习”的代表,而聚类是“无监督学习”的代表。
机器学习的目标是让模型更好的适应“新样本”也就是“测试集”,而学得模型适应“测试集”的能力,称为”泛化能力“。具有强”泛化能力“的模型能够很好反映出样本空间的特性。一般来说,训练样本越多,我们得到的“分步”信息越多,这样学习出来的模型有更强的“泛化能力”。
三,假设空间
推理方法:“归纳”与“演绎”,“归纳”是从特殊到一般的“泛化”,是从具体的一件事件中归纳出规律。而“演绎”则是从一般到特化的过程。从样本中学习是属于“归纳学习”。“归纳学习”有狭义与广义,狭义的归纳学习是要从样本中学得概念,也称“概念学习”,他是最简单的布尔概念学习,布尔学习只有俩种结果:“是”或“不是”。例如:
学习的主要目的是让模型更具有“泛化能力”,我们可以通过假设来搜寻与训练集“匹配”的假设空间,假设一旦确定之后,我们可以确定它的样本空间。例如:
只要瓜的根蒂是蜷缩,敲声是浊响,不管对应的色泽是什么,它都是好瓜,这就是用假设来组成空间,可能多个假设与训练集一致,一个与训练集一致的“假设集合”,我们称为“版本空间”。
四,归纳偏好
通过学习得到出来的模型对应的假设空间中的一个假设,现在有多个与训练集一致的假设,当对应的模型在面临新样本的时候,会产生不同的结果,例如:模型喜欢”尽可能特殊“的模型可能就会选择下面这个:
而若模型喜欢”尽可能一般“的模型。他会选择以下这个:
这个时候我们就要设置某种类型假设的偏好,让模型优先选择某个样本,如果机器学习算法没有设置偏好,我们学习好的模型在进行预测的时候,对于一个新样本,模型可能告诉我们它可能是好的,或是不好的。这样的学习是没有意义的。归纳偏好的作用在以下图像中看的更直观:
如图所示的俩条曲线A,B,A曲线相对平稳,而B曲线波动浮动较大,只有我们设置学习算法的偏好时,才能产生它人为的“正确”模型,在A,B曲线选择的时候,对应的偏好应设置比较“平滑”的曲线A。
NFL定理:不管是用算法A,还是算法B,在最后他们的期望性能都是相同的,这也就是“没有免费的午餐”定理(NFL)。在对待具体问题的时候,我们的设置偏好才能起到关键作用。