机器学习常见算法总结（一）

最新推荐文章于 2024-08-08 15:41:55 发布

繁拾简忆

最新推荐文章于 2024-08-08 15:41:55 发布

阅读量4.4k

点赞数 2

分类专栏：机器学习文章标签：机器学习 KNN 朴素贝叶斯决策树逻辑回归

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014772862/article/details/52295246

版权

本文总结了机器学习中常见的四种算法：KNN、朴素贝叶斯、决策树（包括ID3、C4.5和CART）以及逻辑回归。详细介绍了它们的工作原理、优缺点以及适用场景。KNN算法依赖于k值选择和距离度量，朴素贝叶斯假设特征条件独立，决策树通过信息增益构建模型，而逻辑回归则用于处理分类问题。

摘要由CSDN通过智能技术生成

机器学习算法非常之多，下面是常见算法思想及优缺点比较。

1. KNN

KNN(k-nearest neighbor)的思路很简单，就是计算测试数据与类别中心的距离。KNN实际上利用训练数据集对特征向量进行空间划分，并作为其分类的模型。K值的选择、距离度量及分类决策规则是KNN的三个基本要素。
1.1 算法步骤：

step.1—初始化距离为最大值
step.2—计算未知样本和每个训练样本的距离dist
step.3—得到目前K个最临近样本中的最大距离maxdist
step.4—如果dist小于maxdist，则将该训练样本作为K-最近邻样本
step.5—重复步骤2、3、4，直到未知样本和所有训练样本的距离都算完
step.6—统计K-最近邻样本中每个类标号出现的次数
step.7—选择出现频率最大的类标号作为未知样本的类标号

1.2 常见问题

距离度量选择
一般采用马氏距离或者欧式距离。
高维度对距离衡量的影响：众所周知当变量数越多，欧式距离的区分能力就越差。变量值域对距离的影响：值域越大的变量常常会在距离计算中占据主导作用，因此应先对变量进行标准化。
Ｋ值选择
k太小，分类结果易受噪声点影响；k太大，近邻中又可能包含太多的其它类别的点。（对距离加权，可以降低k值设定的影响）。
k值通常是采用交叉检验来确定（以k=1为基准）。
经验规则：k一般低于训练样本数的平方根。
决策规则
投票法没有考虑近邻的距离的远近，距离更近的近邻也许更应该决定最终的分类，所以加权投票法更恰当一些。

最低0.47元/天解锁文章

关注

2
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。