Spark基本概念

Spark基本概念

1.SparkContent

  a.Driver programs通过SparkContent对象访问Spark

  b.SparkContent代表和一个集群的链接

  c.在shell中SparkContent对象自动创建好了,就是sc

2.Spark中的Shell

  主要分为两种:python shell和 scala shell

  现在主要介绍scala shell下的一些简单操作:

    1.加载

3.RDDs

  RDDs是Resilient distrubuted datasets的简写,意为弹性分布式数据集。

  这些RDDs,并行分布在整个集群中。

  RDDs是Spark分发数据和计算的基础抽象类。

  一个RDDs是一个不可改变的分布式集合对象,因此在使用scala编写时,前面加修饰符val

  Spark中,左右的操作都是通过RDDs的c创建、转换、操作完成的  

  一个RDDs内部其实是由许多Partition(分片)组成,但是我们在操作时只需要关注RDDs即可

    分片:分片是Spark并行处理的单元,Spark顺序的、并行的处理分片。不同的分片可以在不同的节点上计算

  RDDs的创建:

    (1)sc.parallelize()

    一般只是测试使用:      

  val rdd=sc.parallelize(Array(1,2,2,4),4)  第一个参数:带并行化处理的集合   第二个参数:分区个数

    下面还有一些我们测试时经常使用的函数 

    rdd.count()        #统计rdds中的行数
    rdd.collect().foreach(print)    #遍历rdds中的每个元素,但是遍历各个分片的的先后顺序是随机的

    (2)加载外部数据集

  val rddtext=sc.textFile("filepath")

4.scala基础知识

  (1)创建变量时时必须使用val或者var

  (2)scala的匿名函数和类型推断

    匿名函数:

  val lines2=lines.filter(line=>line.comtains("world"))  
  #整个括号中的内容定义了一个匿名函数,传入一个参数line,返回指定结果
  #注意line的类型不需要进行指定,能够推断出来

 

转载于:https://www.cnblogs.com/2017Crown/p/7410828.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值