Spark2.3.1 RDD Programming Guide

Spark应用:driver program运行用户main函数并在executors集群执行并行操作

1 Spark提供两种抽象:RDD和shared variables

2 创建RDD的两种方式:在驱动器程序parallelize集合;从外部存储系统引入数据集

    1) SparkContext.parallelize

        可以使用第二个参数传递分区数量,即并行度,sc.parallelize(data, numSlices)

    2) 外部存储系统包括本地文件系统,HDFS,Cassandra,HBase,Amazon S3,并支持文本文件,SequenceFile,和其他的Hadoop InputFormat

        > textFile返回文件的每一line作为一条记录

        > 文件系统的路径要可被所有工作节点访问

        > textFile方法支持路径,压缩文件,wildcards(通配符)

textFile("/my/directory")/textFile("/my/directory/*.txt")/textFile("/my/directory/*.gz").

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值