第62课：SparkSQL下的Parquet使用最佳实践和代码实践学习笔记

最新推荐文章于 2022-06-24 18:46:48 发布

梦飞天

最新推荐文章于 2022-06-24 18:46:48 发布

阅读量5.9k

点赞数

分类专栏： Spark 文章标签： SparkSQL DataFrame RDD

本文链接：https://blog.csdn.net/slq1023/article/details/51045282

版权

本文介绍了SparkSQL下使用Parquet的最佳实践，包括Parquet的优势，如列式存储、数据压缩和高效扫描。此外，通过代码示例展示了如何在Java中读取和处理Parquet文件，演示了SparkSQL与Parquet的集成应用。

摘要由CSDN通过智能技术生成

第62课：SparkSQL下的Parquet使用最佳实践和代码实践学习笔记

本期内容：

1 SparkSQL下的Parquet使用最佳实践

2 SparkSQL下的Parquet实战

一：Spark SQL下的Parquet使用最佳实践

1，过去整个业界对大数据的分析的技术栈的Pipeline一般分为以下两种方式：

a) Data Source->HDFS->MR/Hive/Spark(相当于ETL)->HDFS Parquet->Spark SQL/Impala->Result Service(可以放在DB中，也有可能被通过JDBC/ODBC来作为数据服务使用)；

b) Data Source->Real time update data to HBase/DB->Export to Parquet->Spark SQL/Impala-> Result Service(可以放在DB中，也有可能被通过JDBC/ODBC来作为数据服务使用)；

上述的第二种方式完全可以通过Kafka+Spark Streaming+Spark SQL（内部也强烈建议采用Parquet的方式来存储数据）的方式取代。

任何情况下都需要实时处理！人脸识别、信用卡诈骗等都是基于流处理。

2，期待的方式：Data Source->Kafka->Spark Streaming->Parquet->Spark SQL(SparkSQL可以结合ML、GraphX等)->Parquet->其它各种Data Mining等

二：Parquet的精要介绍

1， Parquet是列式存储格式的一种文件类型，列式存储有以下的核心优势：

a.可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量。
b.压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的，可以使用更高效的压缩编码（例如Run Length Encoding和Delta Encoding）进一步节约存储空间。

c.只读取需要的列，支持向量运算，能够获取更好的扫描性能。

三．下面编写代码读取parquet文件内容并打印：

package SparkSQLByJava;

import java.util.List;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SQLContext;

public class SparkSQLParquetOps {

public static void main(String[] args) {

SparkConf conf = new SparkConf().setMaster("local").setAppName("SparkSQLParquetOps");

JavaSparkContext sc = new JavaSparkContext(conf);

SQLContext sqlContext = new SQLContext(sc);

DataFrame usersDF = sqlContext.read().parquet("D:\\DT-IMF\\testdata\\users.parquet");

//注册成为临时表以供后续的SQL查询操作

usersDF.registerTempTable("users");

//进行数据的多维度分析

DataFrame result = sqlContext.sql("select * from users");

//对结果进行处理，包括由DataFrame转换成为RDD<Row>,以及结构持久化。

List<Row> listRow = result.javaRDD().collect();

for(Row row : listRow){

System.out.println(row);

}

在eclipse中的运行console:

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties

16/04/02 09:17:56 INFO SparkContext: Running Spark version 1.6.0

16/04/02 09:18:07 INFO SecurityManager: Changing view acls to: think

16/04/02 09:18:07 INFO SecurityManager: Changing modify acls to: think

16/04/02 09:18:07 INFO SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(think); users with modify permissions: Set(think)

16/04/02 09:18:09 INFO Utils: Successfully started service 'sparkDriver' on port 60088.</

最低0.47元/天解锁文章

梦飞天

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录