数据挖掘常用算法简介
有监督的数据挖掘算法
算法 | 功能 | 描述 |
Decision Tree (DT) 决策树 | 分类 | 决策树以人类语言可读懂的信息提供预测结果,规则是if-then-else表达式,他们会解释导致了预测结果的决定。 |
Generalized Linear Models (GLM) 广义线性模型 | 分类和回归 | GLM为二进制目标的分类实现逻辑回归,连续目标实现线性回归。GLM支持对预测概率提供置信区间。 |
Minimum Description Length (MDL) 最小描述长度 | 属性重要性 | MDL是一种信息理论模型选择规则,MDL认为数据最简单最紧凑的表示就是数据的最好的可能性最大的解释 |
Naive Bayes (NB) 朴素贝叶斯 | 分类 | NB用贝叶斯定律进行预测,从而从潜在的证据中得出预测的概率。 |
Support Vector Machine (SVM) 支持向量机 | 分类和回归 | SVM的不同版本使用不同的核函数来处理不同类型的数据集。线性和非线性核均支持。 SVM用最为广泛的边界对目标类进行分类。 SVM回归试图寻找一个连续的函数。 |
无监督的数据挖掘算法
算法 | 功能 | 描述 |
Apriori (AP) | 关联 | AP算法通过观察集合中共同发生的事件进行购物篮分析。该算法找到大于指定的最小支持度的支持规则和大于最小的置信度的置信度 |
k-Means (KM) K-均值 | 聚类 | K均值是基于距离的聚类算法。这种算法将数据分成预计数量的簇,每一个聚类有一个重心。聚类中的每个个体都很接近重心。 ODM支持加强版的均值,他通过对聚簇定义层次化的父子关超越了经典的K均值实现方法。 |
Non-Negative Matrix Factorization (NMF) 非负矩阵分解 | 特征提取 | NMF通过对原始属性的线性组合生成新的属性,线性组合的系数都是非负的。在模型的应用中,NMF将原始属性映射到通过模型新发现的那些属性集中。 |
One Class Support Vector Machine (One- Class SVM) 一类支持向量机 | 异常监测 | 一类支持向量机当被应用的时候建立出类的一个大致轮廓,在有标志的情况下会与轮廓有些不同。 |
Orthogonal Partitioning Clustering (O-Cluster or OC) 正交分割聚类 | 聚类 | O-cluster创建一个层次的基于网格的聚类模型。 |