spark on hive

！@123

已于 2023-11-16 16:33:21 修改

阅读量1.2k

点赞数

于 2023-10-05 18:10:28 首次发布

本文链接：https://blog.csdn.net/a123op2346/article/details/133582469

版权

大数据专栏收录该内容

17 篇文章 0 订阅

订阅专栏

注意：需要提前搭建好hive，并对hive进行配置。并将spark配置成为spark on yarn模式。

1、将hive的配置文件添加到spark的目录下

cp $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf

2、开启hive的hivemetastore服务

提前创建好启动日志存放路径

mkdir $HIVE_HOME/logStart

nohup /usr/local/lib/apache-hive-3.1.3-bin/bin/hive --service metastore  > logStart/hivemetastore.log 2>&1 &

3、开启spark的thriftserver服务，运行端口为1000

cd $SPARK_HOME/sbin
start-thriftserver.sh

注意：其实还是hive的thirftserver服务，同时还需要启动spark集群

4、远程连接thirftserver服务

连接thirftserver服务后，就可以使用hive的元数据（hive在hdfs中的数据库和表），并且将spark作为分析引擎，来执行hivesql了。
那我自己集群的数据做例子：

show databases ;
use clickhouse;

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

！@123

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark on hive

spark on hive
复制链接

扫一扫

专栏目录

项目实战——Spark将Hive表的数据写入ElasticSearch（Java版本）

10-24

项目实战：Java一站式解决Hive内用Spark取数，新建ES索引，灌入数据，并且采用ES别名机制，实现ES数据更新的无缝更新，底层采用Spark计算框架，数据较快。

Hive on Spark源码分析DOC

12-18

Hive on Spark源码分析，实际场景中会遇到需求：将Hive默认的执行引擎MapReduce换成Spark或者Tez。

参与评论您还未登录，请先登录后发表或查看评论

Hive on Spark实施笔记1

08-08

编译环境OS – Ubuntu 14.04MavenScala (Spark编译时有用到)http://www.scala-lang.org/files/arc

hive-spark-client-3.1.2.jar

09-17

hive-on-spark客户端

基于CDH 6.3.0 搭建 Hive on Spark 及相关配置和调优

05-25

CDH6针对hive on spark的调优文档，这个是生产的实战经验

【大数据】Spark使用大全:下载安装、RDD操作、JAVA编程、SQL

Joker_ZJN的博客

06-13

485

一文详解Spark的使用

Spark作业运行异常慢的问题定位和分析思路

PAIN的博客

06-09

384

如果直方图中显示的Task Duration有可判断为数据倾斜的情况（个别Task慢，且输入或输出数据远大于其他Task），可能是数据倾斜导致的。Spill指标比较高，可能是内存压力大，spill至磁盘导致计算变慢，这种情况需要总结和评估是否加内存或者接受稍慢的情况。资源的差异，可以查看对应的 stage 的 executor 统计或者队列资源的监控。如果并不符合数据倾斜的特征，但是某个节点的Task执行都慢，可能是机器负载异常导致。首先对比两次执行的 Job 或者 Stage 是否有明显的运行时间区别。

计算机毕业设计Hadoop+Hive地震预测系统地震数据分析可视化地震爬虫 大数据毕业设计 Spark 机器学习深度学习 Flink 大数据

从业计算机毕业设计10年，打算用一年时间分享10年毕设经验！

06-13

796

计算机毕业设计Hadoop+Hive地震预测系统地震数据分析可视化地震爬虫 大数据毕业设计 Spark 机器学习深度学习 Flink 大数据

Spark参数配置不合理的情况

PAIN的博客

06-09

845

通常 executor 堆外内存在 executor.cores=1 的时候，1g 足够了，正常来说最大值不超过 2g；，默认的 buffer 会在 64k 到 64m 动态伸缩，没有特殊需要不需要设置，如果数据比较大，设置。算法作业绝大多数是 rdd 操作，合理设置并行度，事半功倍，后面会专门介绍怎么优化自己的并行度设置。我们作业中大量的设置 driver 和 executor 的堆外内存为 4g，造成资源浪费。注意：如果有 c++ 库这种计算，executor 堆外内存可以保持原有配置。

计算机毕业设计师hadoop+spark+hive知识图谱医生推荐系统医生数据分析可视化大屏医生爬虫医疗可视化医生大数据 机器学习 大数据毕业设计

从业计算机毕业设计10年，打算用一年时间分享10年毕设经验！

06-13

398

计算机毕业设计师hadoop+spark+hive知识图谱医生推荐系统医生数据分析可视化大屏医生爬虫医疗可视化医生大数据 机器学习 大数据毕业设计

代码杂谈之 pyspark如何做相似度计算

你好，今天的你

06-05

429

在 PySpark 中，计算 DataFrame 两列向量的差可以通过使用 UDF（用户自定义函数）和 Vector 类型完成。这里有一个示例，展示了如何使用 PySpark 的。首先，确保你已经安装了 PySpark 并且正确设置了 SparkSession。

spark复习

weixin_69139397的博客

06-08

1184

5.构建一个机器学习流水线，首先要定义流水线中各个PipelineStage，称为工作流阶段，包括转换器和评估器，之后就可以按照具体的处理逻辑，有序组织PipelineStage并创建一个流水线。6.RDD编程中需要生成一个SparkContext对象，在Spark SQL编程中需要生成一个SparkSession对象，在Spark Streaming中需要生成一个StreamingContext对象。3.RDD，DAG，Executor，应用，阶段的概念。

从数据库到数据仓库：数据仓库导论

探索大数据世界 - 深入解析数据存储、分布式计算与人工智能

06-13

751

本文为数据仓库导论，旨在介绍数据仓库的基本理念和应用场景，帮助读者理解数据仓库的重要性及其在企业中的实际应用。

spark与flink的wordcount示例

码不停歇的博客

06-13

【代码】spark与flink的wordcount示例。

计算机毕业设计hadoop+spark+hive舆情分析系统微博数据分析可视化大屏微博情感分析微博爬虫微博大数据 微博推荐系统微博预测系统

从业计算机毕业设计10年，打算用一年时间分享10年毕设经验！

06-11

936

计算机毕业设计hadoop+spark+hive舆情分析系统微博数据分析可视化大屏微博情感分析微博爬虫微博大数据 微博推荐系统微博预测系统

Python第二语言（十三、PySpark实战）

最新发布

weixin_63514301的博客

06-13

651

Apache Spark是用于大规模数据（large-scala data）处理的统一（unifield）分析引擎；Spark是一款分布式的计算框架，用于调度成百上千的服务器集群，计算TB、PB乃至EB级别的海量数据；Python On Spark：Python语言，是Spark重点支持的方向；PySpark是由Spark官方开发的Python语言第三方库；Python开发者可以使用pip程序快速安装PySpark并像其它第三方库一样使用；主要作用：进行数据处理；

计算机毕业设计python+spark知识图谱音乐推荐系统音乐数据分析可视化大屏音乐爬虫 LSTM情感分析 大数据毕设深度学习机器学习

从业计算机毕业设计10年，打算用一年时间分享10年毕设经验！

06-10

335

计算机毕业设计python+spark知识图谱音乐推荐系统音乐数据分析可视化大屏音乐爬虫 LSTM情感分析 大数据毕设深度学习机器学习

Spark SQL - 操作数据帧

howard2005的专栏

06-04

629

本教程将通过一个具体的案例来演示如何在Spark SQL中操作数据帧。我们将从获取学生数据帧开始，包括两种方法：一是由数据集转换而来，二是直接读取文件生成数据帧。然后，我们将对数据帧进行各种操作，如投影、过滤、统计和排序等。

不想搭集群，直接用spark

weixin_46305053的博客

06-13

717

需要用到spark的本地模式，根本用不到集群，就不想搭建虚拟机，hadoop集群啥的，很繁琐，最后写作业还用不到集群（感觉搭建集群对于我完成作业来说没有什么意义），所以才想办法在windows环境下，直接安装jdk、scala、spark等，使用spark的本地模式来写作业。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交