k均值例子 数据挖掘_【☆数据挖掘-WEKA】

4a8832d4efcf3049e5639d2dbe228da1.png

Data mining

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。


机器学习→理论
数据挖掘→应用

1f18fafdd9492d65fae35ce7a3f92fbb.png

Iris鸢尾花

8e226d97736807ed4fe6005124a928ed.png

Explorer

1bb16cc7748085c90055e5c1cc847d82.png

分类器输出

8875c9c062b536394bdaca65dc8c4b9a.png

749a4423c23e6d23ca9a9f10ba6236d8.png

三种聚类算法

1.k均值算法

选择k个点作为初始质心
repeat
        将每个点指派给最近的质心,形成k个簇
        重新计算每个簇的质心
until 质心不再发生变化

2.EM(Expectation Maximization)算法

计算期望(E)→利用对隐藏变量的现有估计值,计算其最大似然估计值。→最大化(M)→计算参数的值→迭代

3.DBSCAN算法

d732cc58f438da2069cd2250a783571c.png

关联算法

1.Apriori算法

支持度sup(S)=(包含项集s的事物数量/D中总的事物数量的百分比)x100%
频繁项集(Frequent Itemset):满足最小支持度阈值的所有项集。

28c60409e261b16976d402c02247f6ed.png

2.FP-Growth算法

  • FpTree的建立

转载FP Tree算法原理总结 - 刘建平Pinard - 博客园

1)扫描数据,得到所有频繁一项集的的计数。然后删除支持度低于阈值的项,将1项频繁集放入项头表,并按照支
持度降序排列。
2)扫描数据,将读到的原始数据剔除非频繁1项集,并按照支持度降序排列。
3)读入排序后的数据集,插入FP树,插入时按照排序后的顺序,插入FP树中,排序靠前的节点是祖先节点,而靠
后的是子孙节点。如果有共用的祖先,则对应的公用祖先节点计数加1。插入后,如果有新节点出现,则项头表对
应的节点会通过节点链表链接上新节点。直到所有的数据都插入到FP树后,FP树的建立完成。
4)从项头表的底部项依次向上找到项头表项对应的条件模式基。从条件模式基递归挖掘得到项头表项项的频繁项集。
5)如果不限制频繁项集的项数,则返回步骤4所有的频繁项集,否则只返回满足项数要求的频繁项集。

选择属性(Select attributes):

搜索数据中的所有可能的属性组合,以找到预测效果最好的属性子集。

a2d9c7eb02b98f0d379c75fe046b383b.png

自动调节参数:Weka提供元学习器CVParameterSelection

1efadce8ac7d09869bef0ed1a58b74d4.png

可视化:Visualize

84b47017636815d5220472f72a15da16.png

Knowlegde Flow

为weka提供一个“数据流”接口。

批量+以增量方式处理数据
NaiveBayesUpdateable、IBK、LWR、SGD、SPegasos、Cobweb、RacedIncrementalLogitBoost
  • 绘制ROC曲线

91a334ddcc7063ff995441fae84301cf.png

-比较J48和RandomForest分类模型的性能。

1fbf48b08399f173f5c0c8c61c8c7cad.png

-聚类器比较(EM聚类器和k-均值高斯分布聚类器)

a89307d81d6cfacb496534d5c3047b55.png

cd4dc91488c9ae10f08cf6b758c5c4fc.png

Experimenter

实现实验过程的自动化,供高级用户使用Java RMI在多台机器间分配计算负载。

  • CSV格式可用外部电子表格应用程序(eg:MS Excel)装载。
  • JDBC数据库连接:增加从中断的实验或扩展实验中恢复的可能性。冲突后仅计算短缺的那部分算法和数据集。

b39a89bfd883288e1bd086bc4132f8b7.png
若希望尽早完成用一个算法处理全部数据集的结果,则选择数据集优先。

→Destination选择结果监听器

  • InstancesResultListener 将结果以ARFF格式输出到一个Writer
  • CSVResultListener 结果产生器-结果,组装成逗号分隔值的形式
  • DatabaseResultListener 发送到数据库

8452fb5a14a926586aee3810fdc8853b.png
weka连接数据库

分析结果-Analyse

fd6e3560c48c9e4b1e10b6f745d08cb8.png
Test output:测试选项概要| 比较矩阵| 学习方案列表

Test base:

  • Summary:将每一个学习方案与其他所有方案进行比较,并打印出输出矩阵,其中包含一些数据集,以及哪一个方案显著优于其他方案的单元格。

edfc807a06fea2163159a9b90bd215f9.png
  • Ranking:对方案进行排名,(>、<),打印学习方案名次表。

[输出的第一列=胜过地数量-不及的数量]

6632a9a1250f940886863dbc4fbfc83c.png

96bf1e471bae02a94f267ce926e0e4ab.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值