Spark读取文件如何区分HDFS文件和本地文件

在Hadoop集群上配置的Spark如果直接读取文件默认的是读取HDFS上的文件,那么如果想要读取本地的文件就不能直接写还需要说明如下:

from pyspark.sql import SparkSession

def CreateSparkContext():
    # 构建SparkSession实例对象
    spark = SparkSession.builder \
        .appName("SparkSessionExample") \
        .master("local") \
        .getOrCreate()
    # 获取SparkContext实例对象
    sc = spark.sparkContext
    return sc

if __name__ == "__main__":
    # 获取SparkContext实例对象
    sc = CreateSparkContext()
    # 读取本地数据到RDD
    raw_ratings_rdd = read_file_to_RDD(sc, "file:///opt/lin/data/train/result.txt")

那么如果不加file://那么读取的就是hdfs上的文件。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值