概念:聚类算法是一种无监督学习任务,用于将对象分到具有高度相似性的聚类中.
举例:N个人有N多爱好,每个爱好提供出一个贡献值(或者称之为特征值),至于这个贡献值怎么得出目前不讨论.那么聚类算法就能实现根据这些特征值,把这N个人进行分组.
本人所在行业为轨道交通行业,致力于利用轴箱传感器采集到的数据进行故障诊断和预测.文中提到的数据源自真实采集数据.每行16个浮点型数值.
具体为: 最大值,最小值,平均值,均方值,有效值,方差,偏度,峭度,峰值,方根幅值,绝对平均值,波形指标,脉冲指标,裕度指标,峭度指标.
数据共计24000多条,假设人为复核,一条一条去过,那么必然浪费很多时间.那么如何才能更有效率呢?
答案自然是使用Kmeans对数据进行聚类.这里使用的数据已经清洗过,数据清洗概念不知者自行脑补.
接下来上代码
public void digest(String path) {
SparkConf conf = new SparkConf().setAppName("K-means Example");
conf.setMaster("local");
JavaSp