Spark
孙行者Monkey
1.每天进步一丢丢,做个有趣的人 2.种一棵树最好时间是十年前,其次是现在 3.每个人都有一个觉醒期,但觉醒的早晚决定个人的命运 4.知行合一,知道了不去做,等于不知道
展开
-
delta格式的表重建
步骤:1. 创建一张正确表结构的临时表tb_table_tmp2. 再把临时表的表结构及数据写入正式表df = spark.sql("select * from dwd.tb_table")df.write \ .format("delta") \ .mode("overwrite") \ .option("overwriteSchema", "true") \ .option("path", "临时表建表路径") \ .partitionBy('分区字段') \ .save原创 2021-08-25 11:40:11 · 503 阅读 · 1 评论 -
读写 JSON 格式文件
在ETL中,Spark经常扮演T的职务, 也就是进行数据清洗和数据转换.在业务系统中,JSON是一个非常常见的数据格式, 在前后端交互的时候也往往会使用JSON, 所以从业务系统获取的数据很大可能性是使用JSON格式, 所以就需要Spark能够支持 JSON 格式文件的读取读写JSON文件将要 Dataset 保存为 JSON 格式的文件比...原创 2019-12-13 21:25:33 · 574 阅读 · 0 评论 -
Catalyst 优化器
为了解决过多依赖Hive的问题,SparkSQL使用了一个新的SQL优化器替代Hive中的优化器, 这个优化器就是Catalyst, 整个SparkSQL的架构大致如下1.API层简单的说就是Spark会通过一些API接受SQL语句2.收到SQL语句以后, 将其交给Catalyst,Catalyst负责解析SQL, 生成执行计划等3...原创 2019-12-12 21:08:03 · 1206 阅读 · 1 评论 -
实用 | RDD依赖关系
一、Lineage RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。(1)读取一个HDFS文件并将其中内容映射成一个个元组scala> v...原创 2019-11-28 17:46:37 · 407 阅读 · 0 评论 -
实用 | Spark_Yarn模式
一、概述Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。yarn-client:Driver程序运行在客户端,适用于交互、调试,希望立即看到app的输出yarn-cluster:Driver程序运行在由RM(ResourceManager)启动的AP(APPMaster...原创 2019-11-15 20:53:55 · 198 阅读 · 0 评论