林子雨-Spark入门教程(Python版)-学习笔记(二)

本文是林子雨的Spark入门教程第二部分,重点介绍了Spark编程基础,包括从文件加载数据、转换和行动操作、持久化、分区、键值对操作及共享变量。讲解了textFile()方法、filter()、map()、flatMap()、reduceByKey()等操作,并讨论了广播变量和累加器的使用。
摘要由CSDN通过智能技术生成

第3章 Spark编程基础

从文件加载数据

从文件系统中加载数据创建RDD——textFile()方法,该方法把文件的URI作为参数
注意:
(1)本地文件系统的路径,必须要保证在所有的worker节点上都有该文件。
(2)textFile()方法的输入参数,可以是文件名,也可以是目录,也可以是压缩文件等。比如,textFile(“/my/directory”), textFile(“/my/directory/.txt”), and textFile(“/my/directory/.gz”).
(3)textFile()方法也可以接受第2个输入参数(可选),用来指定分区的数目。默认情况下,Spark会为HDFS的每个block创建一个分区(HDFS中每个block默认是128MB)。可以提供一个比block数量更大的值作为分区数目,但是,不能提供一个小于block数量的值作为分区数目

操作

转换操作

  • filter(func):筛选出满足函数func的元素,并返回一个新的数据集
    eg:
    在这里插入图片描述

  • map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集
    eg:每一次迭代返回一个迭代器

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值