常用数据挖掘算法举例（下）

最新推荐文章于 2021-12-25 21:25:53 发布

hajk2017

最新推荐文章于 2021-12-25 21:25:53 发布

阅读量1.2k

点赞数

分类专栏：人工智能智能风控反欺诈大数据决策引擎文章标签：人工智能机器学习大数据数据挖掘算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hajk2017/article/details/81504269

版权

本文深入探讨了数据挖掘中的集成学习，包括随机森林和GBDT，解释了它们的工作原理和应用场景。此外，还介绍了聚类分析的基础概念，用于将数据对象分组，以最大化内部相似性和外部差异性。通过对各种算法如Apriori、最大期望（EM）算法的阐述，展示了数据挖掘在模式发现和关联规则学习中的应用。

摘要由CSDN通过智能技术生成

集成学习

随机森林

随机森林（Random Forest）是利用多棵树对样本进行训练并预测的一种分类器。简单地说，随机森林就是由多棵CART（Classification and Regression Tree）构成的。

对于每棵树而言，它们使用的训练集是从总的训练集中通过有放回采样得到的，这意味着总的训练集中的有些样本可能会多次出现于一棵树的训练集中，也可能从未出现于一棵树的训练集中。

在训练每棵树的节点时，使用的特征是从所有特征中按照一定比例通过无放回随机抽样方法获得的。

GBDT

梯度提升决策树（Gradient Boost Decision Tree，GBDT）的应用很广泛，可用来进行分类和回归，并表现出了很好的效果。

梯度提升（Gradient Boost）是一个框架，里面可以嵌入很多不同的算法，Boost指的是提升，Boosting算法一般都包括迭代过程，每一次新的训练都是为了改进上一次的结果。

原始的Boost算法是在算法开始的时候，为每一个样本赋予一个相同的权重。也就是说，开始的时候，每个样本同样重要。

在每一步模型训练时，通过结果发现数据点的估计有对有错，那么，就在训练结束时，增加分错的点的权重，减少分对的点的权重。如果某些点老是被分错，那么就会被赋予一个很高的权重。

在N次迭代之后，就得到了N个简单的基础分类器，将它们组合起来就得到了一个最终分类模型，比如通过加权方法。

Gradient Boost与传统Boost的区别是，每一次训练是为了减少上一次的残差（residual）。为了消除残差，可以在残差减少的梯度方向上建立一个新的模型。

因此，在Gradient Boost中，建立新的模型是为了使之前模型的残差朝着梯度方向减少，这与传统Boost单纯增加错误权重、减少正确权重有很大的区别。

AdaBoost

AdaBoos

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。