Spark:聚类算法

Spark:聚类算法 Kmeans聚类KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。K-Means聚类算法主要分为三个步骤:(1)第一步是为待聚类的点寻找聚类中心(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到...
阅读(1038) 评论(0)

Spark:Spark 编程模型及快速入门

http://blog.csdn.net/pipisorry/article/details/52366356Spark编程模型SparkContext类和SparkConf类我们可通过如下方式调用 SparkContext 的简单构造函数,以默认的参数值来创建相应的对象。val sc = new SparkContext("local[4]", "Test Spark App")这段代码会创建一...
阅读(3871) 评论(0)

Spark核心类:SQLContext和DataFrame

http://blog.csdn.net/pipisorry/article/details/53320669pyspark.sql.SQLContext[pyspark.sql.SQLContext]皮皮blogpyspark.sql.DataFramespark df和pandas dfspark df的操作基本和pandas df操作一样的[Pandas小记(6)...
阅读(2832) 评论(0)

Spark核心类:弹性分布式数据集RDD及其转换和操作pyspark.RDD

http://blog.csdn.net/pipisorry/article/details/53257188弹性分布式数据集RDD(Resilient Distributed Dataset)创建RDD并行集合 (Parallelized collections)RDD可从现有的集合创建。比如在Scala shell中:val collection = List("a", "b", "c", "...
阅读(2587) 评论(0)

Spark:聚类算法之LDA主题模型算法

http://blog.csdn.net/pipisorry/article/details/52912179Spark上实现LDA原理LDA主题模型算法[主题模型TopicModel:隐含狄利克雷分布LDA ]Spark实现LDA的GraphX基础在Spark 1.3中,MLlib现在支持最成功的主题模型之一,隐含狄利克雷分布(LDA)。LDA也是基于Gra...
阅读(3999) 评论(2)

Spark:相关错误总结

http://blog.csdn.net/pipisorry/article/details/52916307spark FileNotFoundError: [Errno 2] No such file or directory: '~/ENV/spark/./bin/spark-submit'居然是因为这个引发的错误:SPARK_HOME = ~/ENV/spark应该改成SPARK_HOME...
阅读(6146) 评论(0)

Spark运行架构

http://blog.csdn.net/pipisorry/article/details/523662881、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver:S...
阅读(1333) 评论(0)

spark概念、编程模型和模块概述

http://blog.csdn.net/pipisorry/article/details/50931274spark基本概念Spark一种与 Hadoop 相似的通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,在性能和迭代计算上很有看点,提供高效内存计算,现在是Apache孵化的顶级项目。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machine...
阅读(836) 评论(0)

Spark安装和配置

http://blog.csdn.net/pipisorry/article/details/50924395安装HadoopSpark默认使用HDFS充当持久化层,所以需要安装Hadoop,当然也可以不安装。最好下载和spark对应的版本。spark单机环境安装{linux下的安装,windows上也类似}安装jdk依赖[java环境配置:安装jdk]下载spark相应hadoop2.*版本选择...
阅读(3100) 评论(0)
    个人资料
    • 访问:2213158次
    • 积分:23281
    • 等级:
    • 排名:第285名
    • 原创:530篇
    • 转载:30篇
    • 译文:5篇
    • 评论:233条
    Welcome to 皮皮blog~

    博客专栏
    最新评论