机器学习常见算法关键点

前言

撰写本文的主要用于复习统计学习与方法这本书,用于最近科研压力大,白天无法更新博客,只能晚上不间断学习了。
由于最近忙于准备找工作,白天又只能搞科研,所以算法的推导过程略,只为了记住一些关键点。

感知机算法

感知机算法是一定收敛的,证明过程详见统计学习方法32页。但是这个前提是数据集一定是可以线性可分的。同时感知机算法是输入一个点,更新一次 W,b W , b ,所以 W,b W , b 的初始值选择以及输入的观察点的顺序都会影响感知机解的形式。

K近邻算法

k k <script type="math/tex" id="MathJax-Element-6">k</script>近邻算法的三要素为:k值得选择、距离度量、分类决策方式都会影响最后的结果。如果k值选取的较小,相当于模型比较复杂,容易过拟合,例如一个样本为噪声,在这个样本点附近的点取值都有可能得到错误答案。如果k较大,相当于模型比较简单,容易发生欠拟合,所以为了找到合适k值,应该使用交叉验证算法。

距离度量有很多种方式,例如欧氏距离、曼哈顿距离等,如果新的样本加入时,需要与训练样本的每一个点计算距离,为了减小计算量,构建kd树。当搜索过程中,首先从叶节点进行搜索回退到父节点,当确定不可能有更近的节点时,停止搜索。这样将搜索空间限制在一定范围内,大大减小了计算量。
例子详见统计学习方法P42

朴素贝叶斯算法

  • 朴素贝叶斯算法要求数据由独立同分布产生
  • 朴素贝叶斯算法对条件概率作了条件独立性假设

决策树

决策树是一种基本的分类与回归方法,决策树既可以对连续数据进行分类也可以对李三数据进行分类。决策树的三个步骤为:特征选择,决策树的生成,决策树的修剪。
决策树的进行时采用地柜的方式,当样本数量较大时,消耗较多的计算资源。
决策树的生成对应于模型的局部最优,而决策树的剪枝对应于全局最优。

CART决策树的步骤
(1)首先生成尽量大的决策树
(2)使用验证数据集对已经生成的决策树进行剪枝,得到最优的子树

CART树的的逻辑回归使用平方误差最小化准则,对于分类树使用基尼系数最小化准则。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值