![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 80
清梦清河
分享大数据学习之路
展开
-
SparkSQL整合Hive
SparkSQL整合Hive1、Hive远程模式2、SparkSQL与Hive共用元数据2.1、开启Hive元数据服务2.1.1、修改配置2.1.2、启动服务2.2、拷贝hive-site.xml与mysql驱动2.3、启动SparkSQL2.4、测试使用3、SparkSQL JDBC连接方式3.1、启动Spark JDBC服务3.2、启动beeline3.3、测试使用1、Hive远程模式SparkSQL整合Hive需要明白如下结构图2、SparkSQL与Hive共用元数据2.1、开启Hive元数原创 2022-01-05 10:58:34 · 1828 阅读 · 1 评论 -
SparkSQL实战案例
SparkSQL实战案例1、需求分析1.1、数据说明1.2、需求2、需求一3、需求二1、需求分析1.1、数据说明每一列含义为:公司代码,年度,1月到12月的收入金额burk,year,tsl01,tsl02,tsl03,tsl04,tsl05,tsl06,tsl07,tsl08,tsl09,tsl10,tsl11,tsl12853101,2010,100200,25002,19440,20550,14990,17227,40990,28778,19088,29889,10990,20990853原创 2022-01-03 22:06:39 · 643 阅读 · 2 评论 -
SparkSQL基础操作
SparkSQL基础操作1、读取与保存文件1.1、读取文本文件1.2、读取MySQL中的数据1.3、将数据保存为orc格式2、SparkSQL SQL语法3、SparkSQL DSL语法1、读取与保存文件1.1、读取文本文件读取以下文本文件1500100001,施笑槐,22,女,文科六班1500100002,吕金鹏,24,男,文科六班1500100003,单乐蕊,22,女,理科六班1500100004,葛德曜,24,男,理科三班1500100005,宣谷芹,22,女,理科五班1500100原创 2022-01-03 21:29:58 · 2549 阅读 · 0 评论 -
Spark RDD转换算子与行动算子
Spark RDD转换算子与行动算子1、什么是RDD1.1、RDD五大核心属性2、RDD转换算子2.1、单value2.2、双value2.3、Key-Value3、RDD行为算子1、什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性存储的弹性:内存与磁盘的自动切换;容错的弹性:数据丢失可以自动恢复;计算的弹性:计原创 2021-12-30 20:44:38 · 1232 阅读 · 2 评论 -
Spark的Yarn Client与Yarn Cluster模式
Spark的Yarn Client与Yarn Cluster模式1、提交流程2、Yarn Client 模式3、Yarn Cluster 模式1、提交流程 提交流程,其实就是开发人员根据需求写的应用程序通过 Spark 客户端提交给 Spark 运行环境执行计算的流程。 在不同的部署环境中,这个提交过程基本相同,但是又有细微的区别,国内工作中,将 Spark 引用部署到Yarn 环境中会更多一些,所以以下提交流程是基于 Yarn 环境的。DriverSpark 驱动器节点,用于执行 Spa原创 2021-12-30 19:46:26 · 707 阅读 · 0 评论