1. 引言
大学以来一直有想写笔记的冲动,感觉平时学了没记笔记一下子就忘掉了。
机器学习这门课对我还是挺重要的,还有多元统计分析随机过程,这学期要是有时间尽量都试着写写笔记。
关键是这里可以贴代码哈哈哈!
而且手写的还是没有打出来的清晰,手写的公式也没打出来的好看,总之开始尝试把。
2. 基本术语
-
数据集:记录的集合。
-
属性:事物的特征如 西瓜的大小
-
属性值:属性上的取值
-
属性空间:属性组成的空间,如西瓜的大小,颜色,甜度组成一个空间,每个西瓜可以再对应的轴上找到相应的点。
-
样本/示例/特征向量:关于一个事件或对象的描述。
-
预测:若是离散值,任务称为”分类“(classification);若是连续值,任务称为”回归“(regression)。
-
分类:两个类别的”二分类“(binary classification)任务,通常一个称为“正类”(positive class),另一个为”反类“(negative classification)=;涉及多个类别时,称为”多分类“(multi-class classification)任务。
-
聚类:分成若干组,每组称为一个”簇“(cluster)。
-
训练数据是否拥有标记:”监督学习“(supervised learning)和”无监督学习“(unsupervised learning),分类、回归是前者代表,而聚类则是后者的代表。
-
”泛化“(generalization)能力:学得模型适用于新样本的能力。这里提一下之前接触到的决策树,决策树这个模型,如果在训练模型的时候不加以处理(剪枝),最后分类结果精度将会很高,这个时候的模型在预测测试集的时候模型结果通常不乐观。
3.假设空间
- 归纳(induction)与演绎(deduction)时科学推理的两大基本手段。
- 前者从特殊到一般的”泛化“(generalization)过程,即总结一般性规律;后者从一般到特殊”特化“(specialization)过程,推演出具体状况。这称为”归纳学习“(inductive
learning)。 - 归纳学习:广义,从样例中学习;狭义,从训练数据中学得概念,亦称为”概念学习“。
- 概念学习中最基本的是布尔概念加粗样式学习:Yes or No。
- 可以把学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标时找到与训练集”匹配“(fit)的假设,即能够在训练集中的数据判断Yes的假设,所有的假设找到为假设空间。
- 现实问题中假设空间很大,可能有多个假设与训练集一支,即存在一个与训练集一致的”假设集合“,我们称之为”版本空间“(version
space)。
4.归纳偏好
-
通过学习得到的模型对应了假设空间中的一个假设。但是版本空间给我们带来一个麻烦:现在有三个与训练集一致的假设,但与它们对应的模型在面临新样本的时候,却会产生不同的输出。
-
机器学习算法在学习过程中队某种类型假设的偏好,称为”归纳偏好“(inductive bias),或简称为”偏好“。
-
归纳偏好可看作学习算法自身在一个很庞大的假设空间中队假设进行选择的启发式或”价值观“。
-
”没有免费的午餐“定理(No Free Lunch Theorem),简称NFL定理:无论学习算法多聪明、多笨拙,它们的期望性能相同。
-
NFL定理一个重要前提:所有”问题“出现的机会相同、或所有问题同等重要。