回归模型:
误差项要满足正态分布,无偏性,共方差性,和独立性。用最小二乘法,来评估参数。也有很多非线性模型。
贝叶斯算法:
贝叶斯数据需要离散,不完整数据,没有输入和输出的概念,节点运算独立。
EM算法,
聚类分析:
伸缩性,处理不同类型属性的能力,发现任意形状的聚类,输入领域的最小化,处理噪声能力,
k-means,k-medoids,
凝聚和分裂两种方法。
birch主要是数据量大,不能搬到内存中,然后进行的分阶段聚类。简单说就是在已经聚类的情况下,在聚类。
rock算法,优化了,两个相似临域的点不能算是一个簇的问题。
cure算法,解决了偏向球形和相似大小的问题,在处理孤立点的时候更健壮。
基于密度的聚类方式,
DBSCAN 高密度连通区域聚类。
STING
:统计信息网格聚类
。它的优点,
计算是独立于查询的;
有利于并行处理和增量更新;
效率很高
缺点
如果粒度比较细,处理的代价会显著增加;但是,如果网格结构最低层的粒度太粗,将会降低聚类分析的质量;
在构建一个父亲单元时没有考虑孩子单元和其相邻单元之间的关系,因此,结果簇的形状是
isothetic
,即所有的聚类边界或者是水平的,或者是竖直的,没有对角的边界。
WaveCluster
:利用小波变换聚类
cobweb统计学方法,
优点在于:
它不需要用户输入参数来确定分类的个数,它可以自动修正划分中类的数目。
•
缺点是:
首先,它基于这样一个假设:在每个属性上的概率分布是彼此独立的。由于属性间经常是相关的,这个假设并不总是成立。
此外,聚类的概率分布表示使得更新和存储类相当昂贵。因为时间和空间复杂度不只依赖于属性的数目,而且取决于每个属性的值的数目,所以当属性有大量的取值时情况尤其严重。
CLIQUE:维增长子空间聚类方法。
缺点:
•
CLIQUE
算法容易破坏密集区域的边缘,降低最终结果的准确性。
不能自动去除数据集中的孤立点,增加了计算复杂性。
•
可能会剪掉一些密集单元,对最终的聚类结果质量造成影响。
算法的多步骤都采用近似算法,聚类结果的精确性可能因此降低
PROCLUS
:维归约子空间聚类方法。
FCM:模糊聚类。
决策树
优点:
使用者不需要了解很多背景知识,只要训练事例能用属性→结论的方式表达出来,就能用该算法学习;
决策树模型效率高,对训练集数据量较大的情况较为适合;
分类模型是树状结构,简单直观,可将到达每个叶结点的路径转换为
IF→THEN
形式的规则,易于理解;
决策树方法具有较高的分类精确度。
ID3算法。