Spark MLlib聚类代码

最新推荐文章于 2024-06-07 11:25:36 发布

礼彬fly

最新推荐文章于 2024-06-07 11:25:36 发布

阅读量1.1k

点赞数

分类专栏： Bigdatda-Spark 文章标签： spark

本文链接：https://blog.csdn.net/baolibin528/article/details/52793301

版权

Bigdatda-Spark 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

部分数据：

1.658985	4.285136
-3.453687	3.424321
4.838138	-1.151539
-5.379713	-3.362104
0.972564	2.924086
-3.567919	1.531611
0.450614	-3.302219
-3.487105	-1.724432
2.668759	1.594842
-3.156485	3.191137
3.165506	-3.999838
-2.786837	-3.099354
4.208187	2.984927

代码：

package workStudy.MLlib

import org.apache.spark.mllib.clustering.KMeans
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.{SparkConf, SparkContext}
/**
 * Created by Administrator on 2016/10/11.
 */
/**
 * 聚类操作
 */
object day2 {
  def main(args: Array[String]) {
    val conf = new SparkConf()
      .setMaster("local")
      .setAppName("day2")
    val sc = new SparkContext(conf)
    //  val data=MLUtils.loadLibSVMFile(sc,"E://machinedata/KNN/Sparkkmean.txt")
    val data = sc.textFile("E://machinedata/kMeans_demo/testSet.txt") //输入数据集
    val parsedData = data.map(s => Vectors.dense(s.split('\t').map(_.trim.toDouble))).cache() //训练数据

    val numClusters = 2 //聚类中心
    val numIterations = 20 //迭代次数
    val model = KMeans.train(parsedData, numClusters, numIterations) //训练模型
    model.clusterCenters.foreach(println) //聚类中心点坐标
  }
}

运行结果：

[-3.0953906153846154,-2.262190846153846]
[1.3368722037037037,1.1696492222222223]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

礼彬fly

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

spark(56) -- SparkMllib -- SparkMllib的功能和应用场景

erainm

10-17

1461

1. SparkMllib简介及功能介绍 2. SparkML版本变迁 3. SparkMllib架构详解 4. 基于RDD的API与基于DataFrame的API区别和应用 5. SparkMllib的环境搭建与IDEA环境配置 6. RDD、DataSet、Dataframe区别及转化过程

Spark MLlib KMeans聚类算法

热门推荐

Spark MLlib 机器学习

05-12

1万+

1.1 KMeans聚类算法 1.1.1 基础理论 KMeans算法的基本思想是初始随机给定K个簇中心，按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心，从而确定新的簇心。一直迭代，直到簇心的移动距离小于某个给定的值。 K-Means聚类算法主要分为三个步骤： (1)第一步是为待聚类的点寻找聚类中心； (2)第二步是计算每个点到聚类中心的距离，将每个点聚类到离该点

参与评论您还未登录，请先登录后发表或查看评论

sparkmllib机器学习源码

11-01

sparkmllib机器学习.

Spark MLlib线性回归代码实现及结果展示

weixin_34413802的博客

03-08

575

　　线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为一元线性回归,大于一个自变量情况的叫做多元线性回归。代码实现：import org.apache.spark.sql.SparkSessionimport org.apa...

Spark MLlib基于KMeans算法的聚类分析，scala代码

dreamBoat的博客

01-12

694

package com.xtf.demo.mllib import com.hankcs.hanlp.dictionary.stopword.CoreStopWordDictionary import com.hankcs.hanlp.tokenizer.StandardTokenizer import org.apache.log4j.{Level, Logger} import org.apache.spark.ml.feature.Word2Vec import org.apache.spark..

Spark Mllib之聚类算法--基于RDD

大雄没有叮当猫的博客

09-07

1178

微信公众号:数据挖掘与分析学习聚类是一种无监督的学习问题，目标是基于一些相似概念将实体的子集彼此分组。聚类通常用于探索性分析和/或作为分层监督学习管道的组成部分（其中针对每个聚类训练不同的分类器或回归模型）。 spark.mllib 包支持下列模型: K-means Gaussian mixture 1.K-means K-means是最常用的聚类算法之一，它将数据点聚类为预定义数量的...

spark mllib 入门学习（一）--聚类算法

jungegev587的博客

07-18

615

本帖最后由 hero1122 于 2017-7-17 16:32 编辑 1.概述首先，笔者要先申明，我也是初学机器学习领域的内容，虽然我是从事大数据平台开发的工作，但是工作中确实没有跟spark MLlib打过交道，所以文中如果有描述错误的地方，还请大家指正。机器学习对高数、python的基础都有一定的要求，但是入门我觉得最重要的是理论联系实际，了解机器学习基本概念，然后结合sp

Spark MLlib 数据挖掘5--聚类与降维

qiaoqiaomanman的博客

04-13

436

Spark MLlib 数据挖掘5–聚类与降维聚类是一种无监督的学习问题，目标是基于一些相似概念将实体的子集彼此分组。聚类通常用于对未知数据进行打标分析，寻找数据之间的相似性和相异性，主要用于探索数据内部可能存在的统计性规律。一、KMeans算法 KMeans算法的基本思想是初始随机给定K个簇中心，按照最邻近原则把待分析样本点分到各个簇。然后按平均法重新计算各个簇的簇心，从而确定为新的簇心。...

Spark MLlib机器学习库：常用算法及其实战应用

liqinkuaia的博客

01-08

622

MLlib支持多种常见的机器学习任务，如分类、回归、聚类、协同过滤等，并且具有高效、可扩展和易用的特点。首先，需要收集一批已标记为垃圾邮件或非垃圾邮件的邮件样本，提取邮件中的特征（如发件人、邮件正文中的关键词等），然后使用逻辑回归算法训练模型。我们可以使用MLlib中的K-means算法对客户数据进行聚类分析，提取客户的特征（如购买历史、消费习惯等），并根据聚类结果制定相应的营销策略。聚类算法用于将数据集划分为多个不同的簇，使得同一簇内的数据相似度较高，不同簇之间的数据相似度较低。

深入探索Spark MLlib：大数据时代的机器学习利器

最新发布

06-07

1071

随着大数据技术的迅猛发展，机器学习在各行各业的应用日益广泛。Apache Spark作为大数据处理的利器，其内置的机器学习库MLlib（Machine Learning Library）提供了一套高效、易用的工具，用于处理和分析海量数据。本文将深入探讨Spark MLlib，介绍其核心功能和应用场景，并通过实例展示如何在实际项目中应用这些工具。

spark聚类算法的数据

12-07

spark运行聚类算法的数据集，分为train和test的数据格式，scv格式

Spark机器学习（上）

weixin_33744141的博客

01-04

132

1、机器学习概念 1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义：l“机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 一种经常引用的英文定义是：A computer program is said to...

spark平台 mllib K-Means聚类算法实现

meiguopai1的博客

04-19

1111

spark平台 mllib K-Means聚类算法 python版本实现 K-Means 聚类算法可以认为是机器学习比较简单算法，无监督学习。把自然界的各类人、物属性向量化，来划分k类。迭代来求k类的中心点。直接上spark自带源码，spark源码自带 kmeans_data.txt 0.0 0.0 0.0 0.1 0.1 0.1 0.2 0.2 0.2 9

Spark Mllib数据挖掘入门七——非监督分类（聚类）

u011249837的专栏

03-03

737

聚类是一种数据挖掘领域中常用的无监督学习算法，MLlib中聚类的算法目前有4种，其中最常用的是Kmeans算法，在文本分类中应用较为广泛。高斯混合聚类和隐狄利克雷聚类在特定场合有特定的使用。 1.聚类与分类聚类与分类是数据挖掘中常用的两个概念，它们的算法和计算方式有所交叉和区别。一般来说分类是指有监督的学习，即要分类的样本是有标记的，类别是已知的；聚类是指无监督的学习，样本没有标记，根据某种相似度度量把样本聚为k类。 1）分类分类是将事物按特征或某种规则划分成不同部分的一种归纳方式。在数据挖掘中，分

spark.mllib源码阅读-聚类算法1-KMeans

Forever-守望

04-21

4384

KMeans聚类是聚类分析比较简单的一种，由于其简单、高效、易于理解实现等优点被广泛用于探索性数据分析中。关于KMeans算法的介绍、分析的相关文章可谓汗牛充栋，留给我能写的东西并不多了，在这里，我通过罗列相关文章的方式，将涉及KMeans聚类的各方面做一个尽量详尽的总结。最后简单介绍一下Spark下KMeans聚类的实现过程。KMeans聚类算法原理：关于KMeans算法的原理及单机版实现，可

MLlib - Clustering

u013571243的专栏

03-10

527

https://spark.apache.org/docs/1.2.0/mllib-clustering.html Clustering Examples Streaming clustering Examples Clustering Clustering is an unsupervised learning problem whereby we aim to

Spark MLlib 1.6 -- 聚类

浮世尘

02-26

3685

聚类是根据某种相似度量，将‘相似’的样本划分到同一个子类中，所以聚类是一种无监督学习。聚类常用于探索分析，或（和）看作分层监督学习管道上一个环节（在这个管道上，对每个聚类结果再深入进行分类或回归）。 Spark.mllib包支持以下模型： · K-means · Gaussian mixture · Power iteration clustering (PIC) ·

windows下pycharm搭建spark环境，练习SparkMllib（附代码并成功运行）

weixin_44727274的博客

05-17

481

总体的架构与sparkSQL类似，架构可参考 windows下pycharm搭建spark环境，练习SparkSQL（附代码并成功运行）本文章与sparkSQL类似的架构读取三个文件数据，并导入包pyspark.mllib.recommendation import ALS 创建并训练出模型，显示推荐的电影名称然后保存模型，并且再次调用 # 主题：Spark Mlib import os import sys import findspark # 一定要在最前面导入 # 初始化spark环境 f

Spark MLlib分布式机器学习源码分析：K-means聚类

大数据之眸

03-28

1349

Spark是一个极为优秀的大数据框架，在大数据批处理上基本无人能敌，流处理上也有一席之地，机器学习则是当前正火热AI人工智能的驱动引擎，在大数据场景下如何发挥AI技术成为优秀的大数据挖掘工程师必备技能。本文结合机器学习思想与Spark框架代码结构来实现分布式机器学习过程，希望与大家一起学习进步～目录 1.Kmeans聚类 2.Kmeans++ 3.Kmeans|| ...

sparkmllib实现kmeans聚类

05-26

Spark MLlib是Apache Spark的机器学习库，提供了许多常见的机器学习算法的实现。其中，KMeans聚类是一种常见的无监督机器学习算法，可以用于将数据点分成不同的簇。下面是使用Spark MLlib实现KMeans聚类的代码示例： ```python from pyspark.ml.clustering import KMeans from pyspark.ml.evaluation import ClusteringEvaluator # 加载数据集，这里假设数据集已经被读取为一个DataFrame对象，其中特征向量存储在一个名为“features”的列中 dataset = ... # 设置KMeans算法的超参数 k = 2 # 簇的个数 maxIter = 10 # 最大迭代次数 # 定义KMeans算法模型 kmeans = KMeans().setK(k).setMaxIter(maxIter) # 训练模型 model = kmeans.fit(dataset) # 使用模型对数据进行预测 predictions = model.transform(dataset) # 评估聚类效果 evaluator = ClusteringEvaluator() silhouette = evaluator.evaluate(predictions) print("Silhouette with squared euclidean distance = " + str(silhouette)) # 输出每个簇的中心点 centers = model.clusterCenters() for center in centers: print(center) ``` 在上面的代码中，我们首先加载了一个数据集，然后设置了KMeans算法的超参数，接着定义了KMeans算法模型并训练了模型。最后，我们使用模型对数据进行了预测，并使用评估器计算了聚类效果。在输出中，我们还打印了每个簇的中心点。需要注意的是，上面的代码中使用的是PySpark API，如果你使用的是Scala或Java，代码会略有不同，但基本思路是一样的。