pyspark读取文件路径 和 文件

代码:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @author  : 何小义

import sys
reload(sys)
import nerspark
sys.setdefaultencoding('utf8')
import os
import json

# 本地spark (ps:要改成读者的spark路径)
os.environ['SPARK_HOME'] = "/usr/spark-2.0.1"
sys.path.append("/usr/spark-2.0.1/python")
sys.path.append("/usr/spark-2.0.1/python/bin")

try:
    from pyspark import SparkContext
    from pyspark import SparkConf
    from pyspark.sql import SparkSession
    from pyspark.sql import SQLContext
    from pyspark.sql import DataFrame
    from pyspark.sql import Row
    print("Successfully imported Spark Modules")
except ImportError as e:
    print("Can not import Spark Modules", e)
    sys.exit(1)
from pyspark.sql import SparkSession

# === spark读取文件 ====================================================

    # 配置spark(服务器)
    # spark = SparkSession.builder.master(服务器_URL).appName("hzy_test_script").getOrCreate()
    # 配置spark(本机)
    spark = SparkSession.builder.master('local').appName("hzy_test_script").getOrCreate()
    sc = spark.sparkContext

    # rdd_data = sc.textFile("xxx.t*xt")  # 文件内容
    rdd_data = sc.wholetextFile("xxx.t*xt") # 文件path + 内容
    result = rdd_data.take(10)
    print(result)

    print('完成...')

注:

1. data_rdd = sc.textFiles('xxxxxxx.txt')  # 读入文件内容,返回的东西是rdd

2. path_data_rdd = sc.wholeTextFile(('xxxxxxx.txt'))  # 不仅读入文件内容,还会读入文件的路径path

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值