java weka 聚类_数据挖掘学习02 - 使用weka的kmeans聚类分析

本文介绍了如何使用Java库Weka进行KMeans聚类分析。首先解释了KMeans算法的基本原理,接着展示了Weka的数据集格式,并提供了获取和安装Weka的步骤。在Weka的Explorer界面中,导入数据集并选择SimpleKMeans算法进行聚类,调整参数后执行聚类操作。虽然结果可视化在高维数据中有限,但文章提供了基本的操作流程。
摘要由CSDN通过智能技术生成

本文目的

weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到自己的项目中。最近在的项目中遇到了文本聚类的问题,kmeans是一种常见的聚类算法,这里先拿此算法和示例数据做一些实验,以便熟悉weka的界面操作。

什么是kmeans

详细的描述,参见这里。通俗的解释,就是将K个点,称为中心点(K需要预先给出),随机的放到数据集中,然后针对数据集中的每个点计算与这K个中心点的距离,找到每个点最近的中心点。然后更新这K个中心点,使每个中心点是最近的点的平均中心点。如此循环,直到这K个点的位置不能再移动,得到K个聚类。

数据集

weka定义了自己的数据集文件格式,以.arrf结尾,整体感觉就是一张表格,主要分为四个部分(如下图):

45c6d1da56f17341c2a748fab0f59a40.png 注释,comment

数据集名称,relation

属性,attribute,相当于列

数据,每行是一个实例,每一行中的每个字段用逗号隔开,字符串在引号中间,也可以是数字或枚举

获取并安装weka

到官网上获取weka

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值