一、association 关联规则挖掘
一个事件与另一个事件之间的一来关系。
关联规则算法:Apriori 算法:首先从事件中寻找所有频繁出现的事件子集,然后再这些频繁事件子集中发现可信度比较搞的规则。
二、聚类:聚类就是将数据对象划分成若干个子类,在同一类中的对象具有较高的相似度,而不同类中的对象差异较大。
聚类算法:划分方法、层次聚类方法
k-Means:把n个数据对象划分成k 个类,使每个类中的数据点到该类中心的距离平方和最小
k-Medoids:
和 聚集、分裂算法
层次方法:(Hierarchical Method ) 这种方法按照数据分层简历簇,形成一颗以簇为节点的树。如果自底向上进行层次聚集,则称为凝聚(Aggalomerative)的 层次聚类; 如果按照自定向下进行层次分解,成为裂法(Divisive)的层次聚类。
视觉聚类算法:
聚类的基本原则:相似率、连续率、闭合率、近邻率和对称率。
三、预测
数据挖掘预测是通过对反映了事物输入与输出之间的关联性的学习,得到预测模型,在利用该模型对未来数据进行预测的过程。
典型的机器学习:决策树方法,人工神经网络、支持向量机、正则化方法。
决策树:ID3 、 C4.5 用信息增益比率作为选择标准;合并连续属性的值;可以处理具有缺少属性值的训练样本;运用不同的剪枝技术来避免决策树的过拟合现象;K次交叉验证等。
剪枝:预剪枝 :简历规则限制决策树的充分生长。 后剪枝:等决策树生长完毕后剪去不具有一般性的叶子或者分支。
人工神经网络:
支持向量机(Support Vector Machines):
正则化方法::Lasso 模型 、 L1/2正则化模型及其迭代阈值算法。
四、序列和时间序列
数据挖掘工具软件的性能测试报告:http://www.datamininglab.com