pyspark中RDD基本操作

本文介绍了在Ubuntu系统中使用PySpark进行RDD操作的详细过程,包括读取txt文件、filter筛选、map转换、flatMap展开、groupByKey聚合、reduceByKey运算、词频统计、计算平均值、二次排序以及文件排序等常见操作。
摘要由CSDN通过智能技术生成

写在前面

系统为ubuntu, spark为pyspark

一. 简单配置和读取txt,并打印

这里我们定义一个任务:

从txt中读取文件,并打印文件的每一行

from pyspark import SparkConf, SparkContext
import os
# 这里配置spark对用的python版本,如果版本不一致就会报错
os.environ["PYSPARK_PYTHON"] = "/home/wgq/anaconda3/envs/spark/bin/python3.7"

# 配置单机模式
conf = SparkConf().setMaster('local').setAppName('my_app')
sc = SparkContext(conf=conf)

# 文件路径,这个文件里的内容如下
"""
a b c
a c
d a
"""
path = 'file:///home/wgq/learn_spark/test.txt'

# 读取文件
data = sc.textFile(path, 2)

# 如果是从Python列表里读取
"""
arr = ['a b c', 'a c', 'd a']
# 读取文件
data = sc.parallelize(arr)
"""

# 打印每一行
data.foreach(print)

"""
输出:
a b c
a c
d a
"""

二. filter操作

定义任务:

从txt中读取文件,并且过滤掉没有c字母的行

from pyspark import SparkConf, SparkContext
import os
# 这里配置spark对用的python版本,如果版本不一致就会报错
os.environ["PYSPARK_PYTHON"] = "/home/wgq/anaconda3/envs/spark/bin/python3.7"

# 配置单机模式
conf = SparkConf().setMaster('local').setAppName('my_app')
sc = SparkContext(conf=conf)

# 文件路径,这个文件里的内容如下
"""
a b c
a c
d a
"""
path = 'file:///home/wgq/learn_spark/test.txt'

# 读取文件
data = sc.textFile(path, 2)
data = data.filter(lambda line: 'c' in line)
# 打印每一行
data.foreach(print)

"""
输出:
a b c
a c
"
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值