python语法-pyspark实战(数据输入)

python语法-pyspark实战(数据输入)

1.演示通过pyspark代码加载python对象数据(基本数据结构)转为RDD对象,即数据输入
parallelize()方法

"""
演示通过pyspark代码加载数据,即数据输入
"""

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 通过parallelize方法将python对象(数据结构)加载到spark内,成为RDD对象
rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize((1, 2, 3, 4, 5))
rdd3 = sc.parallelize("abcdefg")
rdd4 = sc.parallelize({1, 2, 3, 4, 5})
rdd5 = sc.parallelize({"key1": "value1", "key2": "value2"})

# 如果要查看RDD里面有什么内容,需要用collect()方法
print(rdd1.collect())
print(rdd2.collect())
print(rdd3.collect())
print(rdd4.collect())
print(rdd5.collect())

sc.stop()
# 用过textFile方法,读取文件数据加载到Spark内,成为RDD对象

2.演示通过pyspark代码加载文件数据转为RDD对象,即数据输入
textFile()方法

"""
演示通过pyspark代码加载数据,即数据输入
"""

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local[*]").setAppName("test_spark")

sc = SparkContext(conf=conf)

# 用过textFile方法,读取文件数据加载到Spark内,成为RDD对象
rdd = sc.textFile("测试.txt")
print(rdd.collect())

sc.stop()

参考内容:
python语法-pyspark实战(基础知识)
黑马程序员-python基础

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值