PySpark大数据分析(6)：数据读写

唐犁

已于 2022-12-24 09:32:05 修改

阅读量750

点赞数

分类专栏：大数据处理文章标签：数据结构

于 2021-05-25 22:06:35 首次发布

本文链接：https://blog.csdn.net/github_38325884/article/details/117265752

版权

大数据处理专栏收录该内容

15 篇文章 2 订阅

订阅专栏

文件读写

读写文本文件

PySpark可以直接将一个文本文件读取进来，变成一个RDD，将文件的每一行作为RDD中的一个元素。比如读取一个Markdown文件：

from pyspark import SparkConf, SparkContext


conf = SparkConf().setMaster('local').setAppName('MyApp')
sc = SparkContext(conf=conf)

rdd = sc.textFile('/Users/data/README.md')

使用saveAsTextFile()可以将数据保存为文本文件。PySpark会将传入路径作为文件夹，从多个节点在其下并行输出多个文件，因此数据的每一个部分输出到哪个文件中往往是不受控的。

rdd.saveAsTextFile('/Users/data/output_folder')

读写JSON文件

PySpark可以通过SparkSession直接读取JSON文件，在之前的文章《PySpark大数据分析(1)：Spark的安装与文件读取》中有Yelp数据集的例子。如果需要使用RDD完成操作的话，则可以用文本读写的方式加上JSON的序列化库共同完成。

import json


# read json file
rdd = sc.textFile('/Users/data/archive/yelp_academic_dataset_review.json')
# parse the file
yelp = rdd.map(lambda x: json.loads(x))
# save rdd as a json file
yelp.map(lambda x: json.dumps(x)).saveAsTextFile('yelp.json')

读写CSV文件

和JSON文件一样，CSV格式的文件也可以通过文本文件读写结合解析CSV格式的库的方式完成读写操作，或者使用SparkSession直接读取变成DataFrame。

读写SequenceFile

SequenceFile是Hadoop常用格式的一种。由于Hadoop的设计是用来存储大文件的，大量的小文件存储会产生大量的元信息，导致Hadoop存储压力上升。因此，Hadoop使用了SequenceFile以二进制键值对的方式对小文件进行集中管理。在结构上，SequenceFile有一个header与多个record组层。其中header用于存放键值的类、压缩算法、同步标记等等，PySpark可以依靠同步标记并行读取SequenceFile；record存储记录长度、键的长度、键、以及值。在SparkContext中，可以调用sequenceFile()读取SequenceFile，调用时除了指定路径外，还需要注意这里的键值都是Hadoop的Writable类。

data = sc.sequenceFile(
    path='/Users/data/sequence_file', 
    keyClass='org.apache.hadoop.io.Text', 
    valueClass='org.apache.hadoop.io.IntWritable'
)

将PySpark中的一个RDD保存为SequenceFile同样可以直接调用API，同时还可以指定Hadoop的编码方式，默认为None。

data.saveAsSequenceFile(path='sequence_file', compressionCodecClass='org.apache.hadoop.io.compress.GzipCodec')

读写对象文件

Hadoop输入输出格式

文件压缩

文件系统读写

Amazon S3

HDFS

Spark SQL

Spark SQL可以处理传入的SQL查询，并返回一个由Row对象组成的RDD作为查询的结果。在PySpark中，我们可以使用row[column_number]或者row.column_name访问指定元素。

Hive

Hive是最常见的结构化数据源之一，使用Spark SQL连接Hive需要将Hive的配置文件hive-site.xml放到Spark的配置目录下，一般为/etc/spark/conf/。配置完成后，创建HiveContext对象，就可以使用HQL进行查询了。返回值是由Row组成的RDD。

from pyspark.sql import HiveContext


hiveCtx = HiveContext(sc)
rows = hiveCtx.sql('SELECT UserID, Gender FROM users')
print(rows.first().UserID)
# 1

Parquet

JSON

数据库

JDBC

Cassandra

HBase

Elasticsearch

上一篇：PySpark大数据分析(5)：数据分区
下一篇：PySpark大数据分析(7)：Spark SQL

唐犁

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
PySpark大数据分析(6)：数据读写

PySpark可以直接将一个文本文件读取进来，变成一个RDD，将文件的每一行作为RDD中的一个元素。使用saveAsTextFile()可以将数据保存为文本文件。PySpark会将传入路径作为文件夹，从多个节点在其下并行输出多个文件，因此数据的每一个部分输出到哪个文件中往往是不受控的。
复制链接

扫一扫