Spark
-柚子皮-
╰☆ゞ不染纤尘,不忘初心ゞ☆╮
展开
-
Spark:聚类算法之LDA主题模型算法
http://blog.csdn.net/pipisorry/article/details/52912179Spark上实现LDA原理LDA主题模型算法[主题模型TopicModel:隐含狄利克雷分布LDA ]Spark实现LDA的GraphX基础在Spark 1.3中,MLlib现在支持最成功的主题模型之一,隐含狄利克雷分布(LDA)。LDA也是基于Gra原创 2016-10-25 17:04:28 · 16363 阅读 · 3 评论 -
Spark安装和配置
http://blog.csdn.net/pipisorry/article/details/50924395安装HadoopSpark默认使用HDFS充当持久化层,所以需要安装Hadoop,当然也可以不安装。最好下载和spark对应的版本。spark单机环境安装{linux下的安装,windows上也类似}安装jdk依赖[java环境配置:安装jdk]下载spark相应hadoop2.*版本选择原创 2016-03-18 16:06:17 · 20647 阅读 · 1 评论 -
Spark核心类:SQLContext和DataFrame
http://blog.csdn.net/pipisorry/article/details/53320669pyspark.sql.SQLContext[pyspark.sql.SQLContext]皮皮blogpyspark.sql.DataFramespark df和pandas dfspark df的操作基本和pandas df操作一样的[Pandas小记(6)原创 2016-11-24 15:28:41 · 11399 阅读 · 0 评论 -
Spark:相关错误总结
http://blog.csdn.net/pipisorry/article/details/52916307spark FileNotFoundError: [Errno 2] No such file or directory: '~/ENV/spark/./bin/spark-submit'居然是因为这个引发的错误:SPARK_HOME = ~/ENV/spark应该改成SPARK_HOME原创 2016-10-24 22:29:21 · 36190 阅读 · 1 评论 -
Spark:Spark 编程模型及快速入门
http://blog.csdn.net/pipisorry/article/details/52366356Spark编程模型SparkContext类和SparkConf类我们可通过如下方式调用 SparkContext 的简单构造函数,以默认的参数值来创建相应的对象。val sc = new SparkContext("local[4]", "Test Spark App")这段代码会创建一原创 2016-11-25 10:25:08 · 7162 阅读 · 0 评论 -
Spark核心类:弹性分布式数据集RDD及其转换和操作pyspark.RDD
http://blog.csdn.net/pipisorry/article/details/53257188弹性分布式数据集RDD(Resilient Distributed Dataset)创建RDD并行集合 (Parallelized collections)RDD可从现有的集合创建。比如在Scala shell中:val collection = List("a", "b", "c", "原创 2016-11-21 11:02:26 · 8704 阅读 · 0 评论 -
spark概念、编程模型和模块概述
http://blog.csdn.net/pipisorry/article/details/50931274spark基本概念Spark一种与 Hadoop 相似的通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,在性能和迭代计算上很有看点,提供高效内存计算,现在是Apache孵化的顶级项目。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machine原创 2016-03-19 15:34:33 · 4290 阅读 · 0 评论 -
Spark运行架构
http://blog.csdn.net/pipisorry/article/details/523662881、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver:S原创 2016-08-30 09:17:19 · 3169 阅读 · 0 评论 -
Spark:聚类算法
Spark:聚类算法 Kmeans聚类KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。K-Means聚类算法主要分为三个步骤:(1)第一步是为待聚类的点寻找聚类中心(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到原创 2016-11-25 15:35:15 · 7382 阅读 · 0 评论