spark结合Kmeans对数据标签化

最新推荐文章于 2022-04-21 10:34:42 发布

iteye_20658

最新推荐文章于 2022-04-21 10:34:42 发布

阅读量1.1k

点赞数 2

分类专栏： Spark和机器学习文章标签：数据结构与算法大数据人工智能

本文链接：https://blog.csdn.net/iteye_20658/article/details/82648482

版权

本文介绍了在轨道交通行业中，利用Spark的KMeans聚类算法对轴箱传感器数据进行预处理和分析，以实现故障诊断和预测。通过对24000多条数据进行聚类，发现1%的数据具有显著差异，可能代表潜在故障。KMeans模型有效地筛选出异常数据，为后续的故障定位和数据分析提供了方向。

摘要由CSDN通过智能技术生成

概念：聚类算法是一种无监督学习任务，用于将对象分到具有高度相似性的聚类中．

举例：N个人有N多爱好，每个爱好提供出一个贡献值（或者称之为特征值），至于这个贡献值怎么得出目前不讨论．那么聚类算法就能实现根据这些特征值，把这N个人进行分组．

本人所在行业为轨道交通行业，致力于利用轴箱传感器采集到的数据进行故障诊断和预测．文中提到的数据源自真实采集数据．每行１６个浮点型数值．

具体为：最大值，最小值，平均值，均方值，有效值，方差，偏度，峭度，峰值，方根幅值，绝对平均值，波形指标，脉冲指标，裕度指标，峭度指标．

数据共计24000多条，假设人为复核，一条一条去过，那么必然浪费很多时间．那么如何才能更有效率呢？

答案自然是使用Kmeans对数据进行聚类．这里使用的数据已经清洗过，数据清洗概念不知者自行脑补．

接下来上代码

public void digest(String path) {
		SparkConf conf = new SparkConf().setAppName("K-means Example");
		conf.setMaster("local");
		JavaSp

关注

专栏目录