![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 88
uniqueliang
大数据开发
展开
-
spark sql原理及使用 基本使用mysql hive rdd转为dataframe
一、spark SQL概述1.1 什么是spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。类似于hive的作用。1.2 spark SQL的特点1、容易集成:安装Spark的时候,已经集成好了。不需要单独安装。2、统一的数据访问方式:JDBC、JSON、Hive、parquet文件(一种列式存储文件,是SparkSQL默认的数据源,hive中也支持)3、完全兼容Hive。可以将H转载 2021-01-20 16:03:24 · 413 阅读 · 0 评论 -
spark 内存分布
spark 内存分配:spark版本1.6之前 静态内存管理 堆内内存分布:存储内存storage 、执行内存 Execution、其他内存 other存储内存:用于缓存RDD数据和broadcast数据,占系统内存的60%执行内存:用于缓存在shuffer过程中的中间数据 占系统内存的20%其他内存:用户定义的数据结构或spark内部元数据 占系统内存的20%推外内存分布 存储内存和执行内存 各占50%spark1.6之后 统一内存管理堆内内存分布:存储内存storage...原创 2020-10-14 09:55:00 · 381 阅读 · 0 评论