创建RDD对象2

最新推荐文章于 2024-07-18 17:32:29 发布

傻么老幺

最新推荐文章于 2024-07-18 17:32:29 发布

阅读量88

点赞数 2

文章标签：前端

本文链接：https://blog.csdn.net/qq_43428465/article/details/136856932

版权

# 演示如何创建RDD对象.
# 方式2: 通过读取外部文件的方式方式(生产环境使用)

# 情境1: 读取外部文件之  1个文件.

# 导包
from pyspark import SparkConf, SparkContext
import os

# 锁定远端Python版本.
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

# main方法
if __name__ == '__main__':
    # 1. 构建SparkContext对象.
    # 这里的3表示 3个线程(Task)
    conf = SparkConf().setMaster('local[3]').setAppName('create_rdd_2')
    sc = SparkContext(conf = conf)

    # 2. 构建RDD对象.   本地路径(Linux路径) file:///    HDFS路径  hdfs://node1:8020/
    # 这里的5的意思是: 至少5个分区.
    rdd_init = sc.textFile('file:///export/data/workspace/bigdata60_parent/_02_pyspark_core/data/words.txt', 5)

    # 3. 查看RDD中每个分区的数据, 以及分区的数量
    print(rdd_init.getNumPartitions())  # 获取分区数量, 默认: 2
    print(rdd_init.glom().collect())    # 获取每个分区的数据.