数据挖掘里面机器学习算法的讲解1

本文介绍了数据挖掘中的几种机器学习算法,包括搜索算法、分层算法(如FP-growth)、划分算法和抽样算法。重点讨论了增量式关联规则更新技术的关键特性,并概述了神经网络的归类原则和遗传算法的基本操作。此外,还提到了多媒体数据挖掘,特别是图像、视频和音频的特性及其挖掘方法。
摘要由CSDN通过智能技术生成
回归模型
    误差项要满足正态分布,无偏性,共方差性,和独立性。用最小二乘法,来评估参数。也有很多非线性模型。
贝叶斯算法
    贝叶斯数据需要离散,不完整数据,没有输入和输出的概念,节点运算独立。
        EM算法,
我毛华望QQ849886241,个人博客 http://blog.csdn.net/my_share
聚类分析
        伸缩性,处理不同类型属性的能力,发现任意形状的聚类,输入领域的最小化,处理噪声能力,
        k-means,k-medoids,
        凝聚和分裂两种方法。
        birch主要是数据量大,不能搬到内存中,然后进行的分阶段聚类。简单说就是在已经聚类的情况下,在聚类。
        rock算法,优化了,两个相似临域的点不能算是一个簇的问题。
        cure算法,解决了偏向球形和相似大小的问题,在处理孤立点的时候更健壮。
        基于密度的聚类方式,
        DBSCAN   高密度连通区域聚类。
        STING :统计信息网格聚类 。它的优点, 计算是独立于查询的; 有利于并行处理和增量更新; 效率很高
缺点 如果粒度比较细,处理的代价会显著增加;但是,如果网格结构最低层的粒度太粗,将会降低聚类分析的质量;
在构建一个父亲单元时没有考虑孩子单元和其相邻单元之间的关系,因此,结果簇的形状是 isothetic ,即所有的聚类边界或者是水平的,或者是竖直的,没有对角的边界。
          WaveCluster :利用小波变换聚类
     cobweb统计学方法, 优点在于: 它不需要用户输入参数来确定分类的个数,它可以自动修正划分中类的数目。
缺点是: 首先,它基于这样一个假设:在每个属性上的概率分布是彼此独立的。由于属性间经常是相关的,这个假设并不总是成立。 此外,聚类的概率分布表示使得更新和存储类相当昂贵。因为时间和空间复杂度不只依赖于属性的数目,而且取决于每个属性的值的数目,所以当属性有大量的取值时情况尤其严重
      CLIQUE:维增长子空间聚类方法。 缺点: CLIQUE  算法容易破坏密集区域的边缘,降低最终结果的准确性。 不能自动去除数据集中的孤立点,增加了计算复杂性。 可能会剪掉一些密集单元,对最终的聚类结果质量造成影响。 算法的多步骤都采用近似算法,聚类结果的精确性可能因此降低
      PROCLUS :维归约子空间聚类方法。
      FCM:模糊聚类。
决策树    

优点

    使用者不需要了解很多背景知识,只要训练事例能用属性→结论的方式表达出来,就能用该算法学习;
    决策树模型效率高,对训练集数据量较大的情况较为适合;
    分类模型是树状结构,简单直观,可将到达每个叶结点的路径转换为 IF→THEN 形式的规则,易于理解;
    决策树方法具有较高的分类精确度。 
ID3算法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值