Data mining
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
机器学习→理论
数据挖掘→应用
Iris鸢尾花
Explorer
分类器输出
三种聚类算法
1.k均值算法
选择k个点作为初始质心
repeat
将每个点指派给最近的质心,形成k个簇
重新计算每个簇的质心
until 质心不再发生变化
2.EM(Expectation Maximization)算法
计算期望(E)→利用对隐藏变量的现有估计值,计算其最大似然估计值。→最大化(M)→计算参数的值→迭代
3.DBSCAN算法
关联算法
1.Apriori算法
支持度sup(S)=(包含项集s的事物数量/D中总的事物数量的百分比)x100%
频繁项集(Frequent Itemset):满足最小支持度阈值的所有项集。
2.FP-Growth算法
- FpTree的建立
转载FP Tree算法原理总结 - 刘建平Pinard - 博客园
1)扫描数据,得到所有频繁一项集的的计数。然后删除支持度低于阈值的项,将1项频繁集放入项头表,并按照支
持度降序排列。
2)扫描数据,将读到的原始数据剔除非频繁1项集,并按照支持度降序排列。
3)读入排序后的数据集,插入FP树,插入时按照排序后的顺序,插入FP树中,排序靠前的节点是祖先节点,而靠
后的是子孙节点。如果有共用的祖先,则对应的公用祖先节点计数加1。插入后,如果有新节点出现,则项头表对
应的节点会通过节点链表链接上新节点。直到所有的数据都插入到FP树后,FP树的建立完成。
4)从项头表的底部项依次向上找到项头表项对应的条件模式基。从条件模式基递归挖掘得到项头表项项的频繁项集。
5)如果不限制频繁项集的项数,则返回步骤4所有的频繁项集,否则只返回满足项数要求的频繁项集。
选择属性(Select attributes):
搜索数据中的所有可能的属性组合,以找到预测效果最好的属性子集。
自动调节参数:Weka提供元学习器CVParameterSelection
可视化:Visualize
Knowlegde Flow
为weka提供一个“数据流”接口。
批量+以增量方式处理数据
NaiveBayesUpdateable、IBK、LWR、SGD、SPegasos、Cobweb、RacedIncrementalLogitBoost
- 绘制ROC曲线
-比较J48和RandomForest分类模型的性能。
-聚类器比较(EM聚类器和k-均值高斯分布聚类器)
Experimenter
实现实验过程的自动化,供高级用户使用Java RMI在多台机器间分配计算负载。
- CSV格式可用外部电子表格应用程序(eg:MS Excel)装载。
- JDBC数据库连接:增加从中断的实验或扩展实验中恢复的可能性。冲突后仅计算短缺的那部分算法和数据集。
→Destination选择结果监听器
- InstancesResultListener 将结果以ARFF格式输出到一个Writer
- CSVResultListener 结果产生器-结果,组装成逗号分隔值的形式
- DatabaseResultListener 发送到数据库
分析结果-Analyse
Test base:
- Summary:将每一个学习方案与其他所有方案进行比较,并打印出输出矩阵,其中包含一些数据集,以及哪一个方案显著优于其他方案的单元格。
- Ranking:对方案进行排名,(>、<),打印学习方案名次表。
[输出的第一列=胜过地数量-不及的数量]