摘要:机器学习一直是计算机科学中非常热门的领域。本文对过去几十年中被普遍认可的机器学习算法进行了概括,包括线性模型、决策树、支持向量机、贝叶斯分类器、聚类、集成学习、神经网络、强化学习等(由于是我个人的理解,所以可能有些是错的)。算法和公式是机器学习的核心,但是本文企图使用尽可能少的公式和符号来把各种机器学习算法描述清楚。机器学习算法众多,没有人能够也没有必要真正了解清楚所有的算法。而这些概述能对今后再深入学习某一个方向的算法打下一些基础。
关键词:机器学习 分类 回归 聚类 集成学习 神经网络 强化学习
1 引言
机器学习大致是利用经验来改善系统性能的一种手段。所谓的“经验”对于计算机系统而言自然就是“数据”。“系统”就是所谓的“模型”,或者是包含“模型”的事物,我们改善系统的手段就是通过“数据”来改进模型——不管是发明新模型也好,改进模型的参数也好。
2 预备知识概述
2.1机器学习概述
按训练数据是否有标记信息,机器学习可分为“监督学习”(Supervised Learning)和“无监督学习”(Unsupervised Learning)。前者的代表有分类和回归,后者的代表有聚类。
归纳与演绎是科学推理的两大手段。机器学习如果是从样例中学习,则是属于归纳学习。样例构成数据集,一般情况下一个样例包含属性(一般有多个)和类标两部分。基本上的机器学习都是属于归纳学习,而强化学习(Reinforce Learning)中的免模型学习似乎是个例外。
我们可以把学习过程看作一个在所有关于模型的假设组成的空间里进行搜索的过程,目标是找到与训练集匹配的假设。和我们数据相符的假设会有很多种