SPARK
天涯__
我不是归人,是个过客。
展开
-
SPARK里的reduce(),fold(),以及aggregate()
以上三个方法操作都是对RDD进行的聚合操作。reduce()与fold()方法是对同种元素类型数据的RDD进行操作,即必须同构。其返回值返回一个同样类型的新元素。num=sc.parallelize([1,2,3,4])sum=num.reduce(lambda x,y: x+y)fold()与reduce()类似,接收与reduce接收的函数签名相同的函数,另外再加上一个初始值作为第一次调用原创 2016-08-29 16:27:40 · 11327 阅读 · 0 评论 -
join操作避免数据混洗的partitionBy()方法
我们经常需要把两张表进行join操作。 在join时,我们对数据集是如何分区的一无所知。 默认情况下,会把两个数据集中所有键的哈希值都求出来,将该哈希值相同的记录通过网络传到同一台机器上,然后在那台机器上对所有键相同的记录进行连接。 当出现特殊情况时,比如两张表里某张表非常大,并且这张表里的数据又没有变化过。那么每一次join都会去求所有哈希值,浪费了不少时间,每一次求出的哈希值都是一样的。如原创 2016-08-31 20:05:25 · 1881 阅读 · 0 评论 -
SPARK中的基本概念
基本概念以下内容主要参考自《大数据Spark企业实战》一书(作者:王家林)Application:用户编写的Spark程序,包含Driver和Executor代码。Driver:运行main函数并且创建和关闭SparkContext的程序。Executor:运行在Worker节点上的一个进程,该进程负责运行某些Task,并且负责将数据存放在内存或磁盘中。在Spark On Yarn模式下,其进转载 2016-09-05 12:48:46 · 939 阅读 · 0 评论 -
SPARK里的shuffle
定义shuffle中文一般称为 数据混洗。shuffle的官方定义是,它是spark的一种让数据重新分布以使得某些数据被放在同一分区里的一种机制。例子比如reduceByKey操作。 有时,同一个key的value并没有分布在同一个partition里,甚至没有分布在同一台机器里,而是存放在集群里的某一个其他地方。这时,Spark就会搜集所有的data,并把这些值集合在一起再进行reduce原创 2016-09-19 16:59:11 · 2067 阅读 · 0 评论 -
SPARK基础操作备忘
首先得cd到SPARK目录下,方便操作文件。读取数据创建RDD:lines=sc.textFlie("README.md")pythonLines=lines.filter(lambda line: "Python" in line)经过以上操作,在pythonLines这个对象就包含了在README.md这个文件里所有包含有“Python”这个字符的行。 这里要注意的是,RDD存在两种操作原创 2016-08-27 15:19:12 · 530 阅读 · 0 评论 -
使用虚拟机从小白开始搭建Spark集群
前言此篇博文记录一个小白如何用虚拟机搭建一个集群的血泪史,用来体验Spark的分布式计算。 在搭建之前,先理清一些概念。Spark有三种集群搭建方式。分别为 独立集群模式,即standalone模式搭建在Hadoop生态圈的YARN之上搭建在Mesos之上此篇讲述的是第2种。 而第2种集群方式,是建立在第1种之上的。也就是说,搭建了第2钟,就可以同时使用第1、2种了。YARN是什么?原创 2016-10-03 21:46:00 · 12903 阅读 · 7 评论 -
整理一下HIVE概念
首先要明白,HIVE是HADOOP生态系统中充当数据仓库的角色。它本质上是是一个SQL解释器,就是使得我们能用SQL查询语言去查询HDFS上的数据。而这个功能,容易让我们误认为它就是传统的数据库。但事实上,它与传统的数据库是有区别的,下文会提到。HIVE的数据分为两个部分,一个是存数据的数据库,另一个是元数据库。下面分两部分单独说。存数据的数据库HIVE中存数据的数据库,会被存在原创 2016-10-18 14:08:38 · 812 阅读 · 0 评论 -
PAGE-RANK算法及SPARK实现分析
查看原文:http://www.wyblog.cn/2017/01/06/pagerank%e7%ae%97%e6%b3%95%e5%8f%8aspark%e5%ae%9e%e7%8e%b0%e5%88%86%e6%9e%90/算法这里不总结算法,下面这篇博客总结的很清晰。http://www.cnblogs.com/fengfenggirl/p/pagerank-introduction原创 2017-01-06 17:17:05 · 3001 阅读 · 0 评论