十大算法笔记

Tsing1644

于 2021-06-01 17:54:16 发布

阅读量127

点赞数

分类专栏： R数据挖掘之道

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Tsing1644/article/details/117447750

版权

R数据挖掘之道专栏收录该内容

9 篇文章 0 订阅

订阅专栏

决策树

K-means算法

随机选择初始中心，对任意一个样本求到每一个中心的距离，并归入最近的中心类，反复更新类的中心，直到中心不变或达到最大迭代次数，算法结束。

算法容易收敛到局部最优值，初始点不同，结果有微小差异，但可以通过多次选取初始点，统计收敛中心点的出现次数。

这是一个简洁快速的非监督算法。

如何评估聚类数

轮廓系数结合了内聚和分离两种因素，同时考察了组内相似和组间差异，绝对值趋近于1则两者都相对较优。

支持向量机

核函数可以将低维线性不可分的情况转化为高维线性可分来处理。

Apriori

支持度、可信度、频繁项集、

EM算法

BIC是贝叶斯信息准则，模型越简单，解释力越强，BIC值就越低。

PageRank算法

AdaBoost算法

过程是：

1. 初始化样本权重均等。

2. 自适应增强，体现于某个样本被一个弱分类器分错，那么下一轮训练中，该样本权重增强，每一轮都会加入一个更加准确的弱分类器。迭代直至停机条件最大次数或最低准确率。

3. 系列弱分类器形成以后，对样本进行投票，根据准确率赋予每个弱分类器不同的权重，组合成强分类器。

经常使用决策树来作为弱分类器，但和随机森林不同，只有输入样本不同，变量是相同的。

特点是：

准确率高，几乎使决策树起死回生。

速度快，基本不用调参数。

几乎不会过拟合。

KNN

物以类聚，人以群分

关键点是：

K的确定取决于数据分布，较小的K更不易受样本不均衡的影响，较大的K能减小噪声的影响。

最近邻的距离定义要根据实际数据和业务来确定。

非线性，对于类域的交叉重叠较多的待分样本，方法比较适用。

有点类似PageRank，但KNN只考虑临近点的个数，PageRank还考虑临近点的质量。

朴素贝叶斯

贝叶斯公式和后验概率思想

CART

二分递归分割，将当前样本划分为两个子样本，使得生成的每个非叶子节点都有两个分支，形成二叉决策树。

基尼系数是划分的标准，越接近一则表示收入分配越不平均，划分越好。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
十大算法笔记

决策树K-means算法随机选择初始中心，对任意一个样本求到每一个中心的距离，并归入最近的中心类，反复更新类的中心，直到中心不变或达到最大迭代次数，算法结束。算法容易收敛到局部最优值，初始点不同，结果有微小差异，但可以通过多次选取初始点，统计收敛中心点的出现次数。这是一个简洁快速的非监督算法。如何评估聚类数轮廓系数结合了内聚和分离两种因素，同时考察了组内相似和组间差异，绝对值趋近于1则两者都相对较优。支持向量机核函数可以将低维线性不可分的情况转化为高维线性可分来处..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。