机器学习常见算法关键点

最新推荐文章于 2021-01-21 23:00:31 发布

逐梦_person

最新推荐文章于 2021-01-21 23:00:31 发布

阅读量450

点赞数

分类专栏：机器学习算法原理与编程实践

本文链接：https://blog.csdn.net/u014675538/article/details/79395234

版权

机器学习算法原理与编程实践专栏收录该内容

6 篇文章 2 订阅

订阅专栏

前言

撰写本文的主要用于复习统计学习与方法这本书，用于最近科研压力大，白天无法更新博客，只能晚上不间断学习了。
由于最近忙于准备找工作，白天又只能搞科研，所以算法的推导过程略，只为了记住一些关键点。

感知机算法

感知机算法是一定收敛的，证明过程详见统计学习方法32页。但是这个前提是数据集一定是可以线性可分的。同时感知机算法是输入一个点，更新一次 $W,b$ ，所以 $W,b$ 的初始值选择以及输入的观察点的顺序都会影响感知机解的形式。

K近邻算法

k <script type="math/tex" id="MathJax-Element-6">k</script>近邻算法的三要素为：k值得选择、距离度量、分类决策方式都会影响最后的结果。如果k值选取的较小，相当于模型比较复杂，容易过拟合，例如一个样本为噪声，在这个样本点附近的点取值都有可能得到错误答案。如果k较大，相当于模型比较简单，容易发生欠拟合，所以为了找到合适k值，应该使用交叉验证算法。

距离度量有很多种方式，例如欧氏距离、曼哈顿距离等，如果新的样本加入时，需要与训练样本的每一个点计算距离，为了减小计算量，构建kd树。当搜索过程中，首先从叶节点进行搜索回退到父节点，当确定不可能有更近的节点时，停止搜索。这样将搜索空间限制在一定范围内，大大减小了计算量。
例子详见统计学习方法P42