Spark读取文件如何区分HDFS文件和本地文件

最新推荐文章于 2024-04-29 11:12:25 发布

幸运的Alina

最新推荐文章于 2024-04-29 11:12:25 发布

阅读量1.9k

点赞数 1

分类专栏： Spark学习文章标签： pyspark HDFS

本文链接：https://blog.csdn.net/qq_27575895/article/details/93384607

版权

Spark学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

在Hadoop集群上配置的Spark如果直接读取文件默认的是读取HDFS上的文件，那么如果想要读取本地的文件就不能直接写还需要说明如下：

from pyspark.sql import SparkSession

def CreateSparkContext():
    # 构建SparkSession实例对象
    spark = SparkSession.builder \
        .appName("SparkSessionExample") \
        .master("local") \
        .getOrCreate()
    # 获取SparkContext实例对象
    sc = spark.sparkContext
    return sc

if __name__ == "__main__":
    # 获取SparkContext实例对象
    sc = CreateSparkContext()
    # 读取本地数据到RDD
    raw_ratings_rdd = read_file_to_RDD(sc, "file:///opt/lin/data/train/result.txt")

那么如果不加file://那么读取的就是hdfs上的文件。