数据挖掘里面机器学习算法的讲解1

最新推荐文章于 2022-04-02 20:57:49 发布

my_share

最新推荐文章于 2022-04-02 20:57:49 发布

阅读量6.8k

点赞数 1

分类专栏： FPGA机器学习数据挖掘文章标签：数据挖掘机器学习算法数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/my_share/article/details/50939878

版权

本文介绍了数据挖掘中的几种机器学习算法，包括搜索算法、分层算法（如FP-growth）、划分算法和抽样算法。重点讨论了增量式关联规则更新技术的关键特性，并概述了神经网络的归类原则和遗传算法的基本操作。此外，还提到了多媒体数据挖掘，特别是图像、视频和音频的特性及其挖掘方法。

摘要由CSDN通过智能技术生成

回归模型：

误差项要满足正态分布，无偏性，共方差性，和独立性。用最小二乘法，来评估参数。也有很多非线性模型。

贝叶斯算法：

贝叶斯数据需要离散，不完整数据，没有输入和输出的概念，节点运算独立。

EM算法，

我毛华望QQ849886241，个人博客 http://blog.csdn.net/my_share

聚类分析：

伸缩性，处理不同类型属性的能力，发现任意形状的聚类，输入领域的最小化，处理噪声能力，

k-means，k-medoids，

凝聚和分裂两种方法。

birch主要是数据量大，不能搬到内存中，然后进行的分阶段聚类。简单说就是在已经聚类的情况下，在聚类。

rock算法，优化了，两个相似临域的点不能算是一个簇的问题。

cure算法，解决了偏向球形和相似大小的问题，在处理孤立点的时候更健壮。

基于密度的聚类方式，

DBSCAN 高密度连通区域聚类。

STING ：统计信息网格聚类。它的优点，计算是独立于查询的；有利于并行处理和增量更新；效率很高

缺点如果粒度比较细，处理的代价会显著增加；但是，如果网格结构最低层的粒度太粗，将会降低聚类分析的质量；

在构建一个父亲单元时没有考虑孩子单元和其相邻单元之间的关系，因此，结果簇的形状是 isothetic ，即所有的聚类边界或者是水平的，或者是竖直的，没有对角的边界。

WaveCluster ：利用小波变换聚类

cobweb统计学方法，优点在于：它不需要用户输入参数来确定分类的个数，它可以自动修正划分中类的数目。

• 缺点是：首先，它基于这样一个假设：在每个属性上的概率分布是彼此独立的。由于属性间经常是相关的，这个假设并不总是成立。此外，聚类的概率分布表示使得更新和存储类相当昂贵。因为时间和空间复杂度不只依赖于属性的数目，而且取决于每个属性的值的数目，所以当属性有大量的取值时情况尤其严重。

CLIQUE：维增长子空间聚类方法。缺点： • CLIQUE 算法容易破坏密集区域的边缘，降低最终结果的准确性。不能自动去除数据集中的孤立点，增加了计算复杂性。 • 可能会剪掉一些密集单元，对最终的聚类结果质量造成影响。算法的多步骤都采用近似算法，聚类结果的精确性可能因此降低

PROCLUS ：维归约子空间聚类方法。

FCM：模糊聚类。

决策树

优点：

使用者不需要了解很多背景知识，只要训练事例能用属性→结论的方式表达出来，就能用该算法学习；

决策树模型效率高，对训练集数据量较大的情况较为适合；

分类模型是树状结构，简单直观，可将到达每个叶结点的路径转换为 IF→THEN 形式的规则，易于理解；

决策树方法具有较高的分类精确度。

ID3算法。

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。