Spark-SQL学习笔记_总结和拓展

本文详细介绍了Spark-SQL的应用场景,包括数据文件查询、流数据处理、ETL开发等,并探讨了如何与外部数据源交互。内容涵盖数据加载、DataFrame与RDD转换、SQL查询及json处理。同时,讲解了DataFrame与SQL的关系、schema处理和数据保存策略,以及Spark-SQL对SQL标准的支持情况。
摘要由CSDN通过智能技术生成

一、Spark-SQL应用场景

1.数据文件即席查询 Ad-hoc

    普通查询:定制化查询

2.对流数据文件采用SQL分析   Spark-Streaming+Spark-SQL

3.使用SQL完成ETL开发

  1> 格式转换  ==>列式存储 parquet/json==>parquet

  2> 日志数据清洗,把日志一部分内容抽取出来做分析统计

        2.1> 添加字段 ip=>城市

   2.2> 日期字段 转换成分区字段

   2.3> 剔除不需要字段

4.与外部数据源做交互查询操作 外部数据源API!!!

  传统:通过sqoop把数据抽取到数据平台上去

           然后注册成Hive表,进行统计分析

  进阶:Spark-SQL

           把外部数据源中的表注册成DataFrame

           通过DataFrame API进行统计分析

5.集群查询性能拓展

     spark on yarn 开发

     spark local模式 测试

  二、加载数据

  1.直接加载到dataframe/dataset

  2.加载到RDD进行转换

  3.从本地或云端(HDFS/S3)加载数据

  1>将数据加载成RDD

  val masterLog = sc.textFile("file://")

   val workerLog = sc.textFile("file://")

   val allLog=sc

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值