博客专栏  >  云计算/大数据   >  SPARK

SPARK

主要介绍spark的应用

关注
1 已关注
15篇博文
  • 关于spark减少日志量

    在conf目录下创建一个名为 log4j.properties 的文件来管理日志设置。Spark开发者们已经在Spark中加入了一个日志设置文件的模板,叫做 log4j.properties.temp...

    2018-01-22 14:37
    45
  • 一起学Spark(14)-- 其他简介

    1.Apache Zookeeper:Apache Zookeeper 是一个分布式,无主服务器的协调服务。假设在分布式环境中有一个无主服务,那就表明没有协调中心,而如果没有协调中心,则集群中每一个z...

    2018-02-27 11:16
    23
  • 一起学Spark(13) -- 数据 Shuffle 与分区器

    许多转换操作需要在集群中shuffle数据,包括join,各种ByKey等。所有这些操作都很消耗性能,因为它们可能需要对整个数据集进行shuffle,排序以及重新分区。但是有一个小技巧可以提高性能,即...

    2018-02-26 18:46
    50
  • 一起学spark(12)-- 关于RDD和DataFrame 的缓存

    (1)Rdd持久化   当调用RDD的persist()或者cache()方法时,这个RDD的分区会被存储到缓存区中,Spark会根据spark.storage.memoryFraction 限制用来...

    2018-02-07 18:05
    260
  • 一起学spark(11) -- Spark SQL 和 DataFrame 操作

    Spark SQL是在Spark 1.0 中新加入的spark 组件,并快速成为了Spark中教受欢迎的操作结构化和半结构化数据的方式。DataFrame 是由 ROW对象组成的rdd,每个ROW对象...

    2018-02-06 19:19
    70
  • 一起学spark(10) -- spark SQL中的结构化数据之一 : Apache Hive

    Apache Hive 是Hadoop 上的一种常见的结构化数据源,Hive 可以在HDFS 内或者其他存储系统上存储多种格式的表,这些格式从普通文本到列式存储格式,应有尽有。Spark SQL可以读...

    2018-02-02 18:15
    80
  • 一起学spark(9) -- 累加器和广播变量

    通常在向spark传递函数时,可以使用驱动器程序中的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。累加器:累加器提供了将工作节点中的词聚合...

    2018-02-02 17:01
    45
  • 一起学spark(8) -- 针对两个pair rdd 的连接操作以及pair RDD 的行动操作

    针对两个pair RDD的连接转化操作 (rdd = {(1,2),(3,4),(3,6)}  other = {(3,9)})rdd.subtractByKey(other) #删掉rdd中与o...

    2018-02-02 16:08
    42
  • 一起学spark(7) -- 键值对RDD(pair rdd)

    键值对RDD是Spark中许多操作所需要的常见数据类型。通常用来进行聚合运算。键值对即所谓的 key-value 形式的数据,比如 ('name','Lucy')  name 是 key , Lucy...

    2018-02-02 14:54
    31
  • 一起学spark(6)-- 仅在数值RDD上的统计操作

    有一些行动操作仅仅适用于数值型的RDD,其他类型是不支持的,如以下代码:count()                                     rdd的元素个数mean()      ...

    2018-02-02 14:17
    41
  • 一起学Spark(5) -- 基本rdd 常见的转换和行动操作

    1.转换操作 1.1 一般的元素操作#map 和 flatmap #map接受一个函数,把这个函数用于每个rdd中的元素 nums = sc.parallelize([1,2,3,4]) square...

    2018-01-26 17:57
    181
  • 一起学Spark(4) -- 向Spark传递函数

    向Spark传递函数注意当你传递的对象是某个对象的成员,或者包含了对某个对象中一个字段的引用时(如self.field),Spark就会把整个对象发送到工作节点,这可能比你想要传递的东西大得多。#-*...

    2018-01-26 16:25
    92
  • 一起学Spark(3) -- RDD介绍和创建

    RDD介绍和创建RDD是Spark的核心:分布式元素集合。(弹性分布式数据集)Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分成多个子分区,这些分区运行在集群中的不同节点之上。用户...

    2018-01-26 15:51
    56
  • 一起学Spark(2)-- Spark组件与YARN 集群运行

    Spark组件与在yarn集群上的运行 1.Driver    driver 前面介绍过,是spark的驱动器程序,也是负责启动和管理运行Spark应用的进程。确切的说,driver是维护所有计算...

    2018-01-22 17:32
    87
  • 一起学Spark (1) -- spark介绍与初始化

    Spark介绍与初始化参考资料《Spark 大数据集群计算的生产实践》与《Spark快速大数据分析》spark是大数据的下一代数据处理引擎。支持三种语言,Python,Java 以及它的原生语言Sca...

    2018-01-22 15:55
    104
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部