皮皮blog

Talk is cheap, Show me the code!

Spark:聚类算法

Spark:聚类算法 Kmeans聚类KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。K-Means聚类算法主要分为三...

2016-11-25 15:35:15

阅读数:2299

评论数:0

Spark:Spark 编程模型及快速入门

http://blog.csdn.net/pipisorry/article/details/52366356Spark编程模型SparkContext类和SparkConf类我们可通过如下方式调用 SparkContext 的简单构造函数,以默认的参数值来创建相应的对象。val sc = new...

2016-11-25 10:25:08

阅读数:5112

评论数:0

Spark核心类:SQLContext和DataFrame

http://blog.csdn.net/pipisorry/article/details/53320669pyspark.sql.SQLContext[pyspark.sql.SQLContext]皮皮blogpyspark.sql.DataFramespark df和pandas dfspa...

2016-11-24 15:28:41

阅读数:6400

评论数:0

Spark核心类:弹性分布式数据集RDD及其转换和操作pyspark.RDD

http://blog.csdn.net/pipisorry/article/details/53257188弹性分布式数据集RDD(Resilient Distributed Dataset)创建RDD并行集合 (Parallelized collections)RDD可从现有的集合创建。比如在...

2016-11-21 11:02:26

阅读数:5698

评论数:0

Spark:聚类算法之LDA主题模型算法

http://blog.csdn.net/pipisorry/article/details/52912179Spark上实现LDA原理LDA主题模型算法[主题模型TopicModel:隐含狄利克雷分布LDA ]Spark实现LDA的GraphX基础在Spar...

2016-10-25 17:04:28

阅读数:8217

评论数:3

Spark:相关错误总结

http://blog.csdn.net/pipisorry/article/details/52916307spark FileNotFoundError: [Errno 2] No such file or directory: '~/ENV/spark/./bin/spark-submit'...

2016-10-24 22:29:21

阅读数:17202

评论数:1

Spark运行架构

http://blog.csdn.net/pipisorry/article/details/523662881、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包...

2016-08-30 09:17:19

阅读数:2051

评论数:0

spark概念、编程模型和模块概述

http://blog.csdn.net/pipisorry/article/details/50931274spark基本概念Spark一种与 Hadoop 相似的通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,在性能和迭代计算上很有看点,提供高效内存计算,现在是Apache孵化...

2016-03-19 15:34:33

阅读数:1846

评论数:0

Spark安装和配置

http://blog.csdn.net/pipisorry/article/details/50924395安装HadoopSpark默认使用HDFS充当持久化层,所以需要安装Hadoop,当然也可以不安装。最好下载和spark对应的版本。spark单机环境安装{linux下的安装,window...

2016-03-18 16:06:17

阅读数:8144

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭