spark
文章平均质量分 83
罗少说
这个作者很懒,什么都没留下…
展开
-
spark面试题(一)
spark面试题原创 2023-06-26 09:58:14 · 227 阅读 · 0 评论 -
修改hive计算引擎
修改hive计算引擎进入hive客户端设置mapreduce引擎set hive.execution.engine=mr;设置tez引擎set hive.execution.engine=tez;设置spark引擎set hive.execution.engine=spark;原创 2020-07-24 16:56:12 · 1222 阅读 · 0 评论 -
IDEA打包scala和java依赖
<build> <finalName>statis-jobs-scala</finalName> <sourceDirectory>src/main/scala</sourceDirectory> <resources> <!-- 排除目录 --> <...原创 2020-04-28 08:48:36 · 972 阅读 · 0 评论 -
spark复习笔记(二)——spark sql
Spark SQL特点1、易整合整合SQL查询和Spark编程2、统一的数据访问方式使用相同方式连接不同的数据源3、继承Hive在已有的仓库上直接运行SQL或者HQL4、标准的连接方式通过JDBC或者ODBCDataFrame分布式数据容器schema 数据的结构信息(类似于desc table)支持嵌套数据类型 struct array map从API易用性,Dat...原创 2020-04-20 10:03:34 · 383 阅读 · 0 评论 -
spark复习笔记(一)——RDD
RDD编程模型在Spark中,RDD被表示为对象,通过对象上的方法调用对RDD的转换RDD支持2种操作:1、transformation2、action在spark种几乎所有的transformation操作都是懒执行的transformation操作并不会立即计算他们的结果,而是记住这个操作当通过一个action来获取结果返回给驱动程序的时候,这些转换操作才开始计算这种设计...原创 2020-04-20 10:00:51 · 474 阅读 · 0 评论 -
hive join、spark join 、flink join
hive里面map join优化小表数据-> HashtableFiles-> Distributed Cache->遍历匹配离线Batch SQL Join三种方式Nested-loop Join 内嵌遍历的方式Sort-Merge Join 归并排序 要求是有序数据集Hash Join 将一个数据集转换为Hash Table,再进行遍历匹配实时Streamin...原创 2020-04-20 09:58:00 · 451 阅读 · 0 评论 -
spark和mapreduce的区别
spark是通过借鉴Hadoop mapreduce发展而来,继承了其分布式并行计算的优点,并改进了mapreduce明显的缺陷,具体表现在以下几方面: 1.spark把中间计算结果存放在内存中,减少迭代过程中的数据落地,能够实现数据高效共享,迭代运算效率高。mapreduce中的计算中间结果是保存在磁盘上的,这样必然影响整体运行速度。 2.spark容错性高。spark支持D...原创 2020-04-20 09:49:26 · 1287 阅读 · 0 评论 -
Spark SQL运行原理解析
Spark SQL和mysql、hivesql从SQL规范来说都一样引擎:sparksql底层执行是spark,执行效率高,分布式mysql底层执行是InnoDB,当然还有其他的引擎,单节点执行hivesql底层执行默认是mapreduce,也可以更换为执行速度更快的tez,分布式对于sql语句来说,都是共同的例:select id ,name,age from stude...原创 2020-04-20 09:29:19 · 1007 阅读 · 0 评论