转换器与预估器，KNN算法，朴素贝叶斯算法，决策树，随机森林的特点，优缺点

最新推荐文章于 2023-12-16 12:42:09 发布

qq_43625764

最新推荐文章于 2023-12-16 12:42:09 发布

阅读量672

点赞数

分类专栏：笔记文章标签： KNN算法随机森林朴素贝叶斯算法机器学习算法决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43625764/article/details/124456798

版权

笔记专栏收录该内容

15 篇文章 0 订阅

订阅专栏

转换器与预估器，KNN算法，朴素贝叶斯算法，决策树，随机森林的特点，优缺点

`1转换器与预估器`

实例化转换器

fit_transform 转换

实例化预估器

fit将训练集的特征值和目标值传进来

fit运行完后，已经把这个模型训练出来了

`2KNN算法`

根据你的邻居来推测你的类别，如何确定谁是你的邻居（用距离公式，最常用的是欧式距离）还有曼哈顿距离–求绝对值，明可夫斯基距离（欧式距离和曼哈顿距离的一个退p=1曼哈顿距离，p=2欧式距离）

k的取值对最终的结果有影响，k指的是有几个邻居，这些邻居中的大多数就是我们所属的类别（k值太小会受到异常值的影响，k值取得过大会受样本不均衡的影响）

要进行大量的距离计算，时间复杂度很高，内存开销比较大

应用场景，少量数据

`3朴素贝叶斯算法`

朴素–假定特征和特征之间是相互独立的

贝叶斯指的就是贝叶斯公式

求各项概率时，遇到概率值为0时，原因在于训练集样本量太少了

引入拉普拉斯平滑系数，可以求出来

优点，因为假定了特征值与特征值之间相互独立，所以运算起来特别块

缺点：就是因为假定了特征值与特征值之间相互独立，而在实际情况下，特征值与特征值之间存在关联，这样以来就会使得结果不准确

`4决策树`

决策树的关键点就是如何高效的决策

先看那个条件可以高效的决策（如何确定顺序—计算—知道某个条件之后—不确定性程度减小的程度越多就看哪个）使用信息增益，信息增益比，经济系数

衡量我们知道某个条件系数，不确定性的减少程度

信息增益=信息熵-条件熵

优点：可视化，可解释能力强

缺点：容易过拟合（解决方案：随机森林）

`5随机森林`

森林：多个决策树，三个臭皮匠顶个诸葛亮

随机：对每课树产生是随机的（随机在：每一棵树的测试集和训练集的特征都是随机的）

训练集是如何产生的（随机有放回的抽样，从N个训练集样本中随机有放回的抽样，抽取N个–单颗树的训练集）

特征如何产生的（从大M中随机抽取小m个特征，m可以是M的平方根，也可以是log2(M),也可以取M会耗时很大）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。