Spark读写Hive

最新推荐文章于 2024-08-04 00:33:27 发布

fansy1990

最新推荐文章于 2024-08-04 00:33:27 发布

阅读量1.3w

点赞数 1

分类专栏： spark on yarn cdh hive

本文链接：https://blog.csdn.net/fansy1990/article/details/53401102

版权

本文介绍了在CDH5.8环境下，Spark 1.6.0如何读写Hive。通过HiveContext读取Hive表，并展示了Spark On YARN的配置方法。同时，详细阐述了Spark写入Hive的两种方式：直接执行SQL和先注册DataFrame为临时表再生成Hive表。

摘要由CSDN通过智能技术生成

环境：CDH5.8，Spark：1.6.0；Hadoop：2.6.0，Intellij IDEA14 ，jdk1.8，sdk：2.10.6 ，maven：3.3.3；

工程下载地址：https://github.com/fansy1990/spark_hive_source_destination

1. Spark读取Hive

Spark读取Hive，使用的是HiveContext，第一步使用sc生成一个HiveContext，然后其他操作就是在HiveContext里面操作了；

比如使用HiveContext的tables()方法，那么就可以得到Hive中所有表的相关信息，使用工程中的hiveinout.SparkReadHive的测试类，在终端中运行：

spark-submit --class hiveinout.SparkReadHive --master yarn --deploy-mode cluster --jars /usr/lib/hive/lib/datanucleus-core-3.2.10.jar --files /usr/lib/hive/conf/hive-site.xml spark_hive-1.0-SNAPSHOT.jar

其中，使用的是Spark On YARN的方式来运行，这里还需要指定第三方jar，也就是datanucleus相关jar以及hive-site.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

fansy1990

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

简单的spark 读写hive以及mysql

11-30

1. **数据类型匹配**：Spark DataFrame 和 Hive 或 MySQL 表的列数据类型应保持一致，否则可能会在读写过程中遇到问题。 2. **分区策略**：在写入 Hive 时，如果数据量大，可以使用分区策略来优化存储和查询性能。...

spark 读取hive java_Spark2.0入门：连接Hive读写数据（DataFrame）

weixin_35397676的博客

02-26

955

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！[返回Spark教程首页]Hive是基于Hadoop的数据仓库(要想了解更多数据仓库Hive的知识以及如何安装Hive，可以参考厦门大学数据库实验室的Hive授课视频、Hive安装指南)。本节内容介绍Spark如何连接Hive并读写数据。一、让Spark包含Hive支持为了让Spark能够访问Hive，必须为Spark添加Hi...

参与评论您还未登录，请先登录后发表或查看评论

spark之读写Hive

qq_56870570的博客

07-10

6767

一、数据准备 1.1 将hive-site.xml拷贝到spark/conf目录下：分析：从错误提示上面就知道，spark无法知道hive的元数据的位置，所以就无法实例化对应的client。解决的办法就是必须将hive-site.xml拷贝到spark/conf目录下 1.2测试代码中没有加sc.stop会出现如下错误： ERROR scheduler.LiveListenerBus: Listener EventLoggingListener threw an exception ja..

Spark连接访问Hive数据

最新发布

2401_82567159的博客

08-04

580

Spark访问Hive数据

Spark连接Hive三种方式

serendipity

08-27

6324

1. 用Spark-Sql/Spark-Shell执行操作Hive 1.1 相关配置 hive中配置hive-site.xml（增加相关信息） <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://192.168.56.1:3306/hive-demo?useSSL=false&

spark hive结合杂记(hive-site.xml)

weixin_30338461的博客

08-25

456

1.下载spark源码，在spark源码目录下面有个make-distribution.sh文件，修改里面的参数，使编译后能支持hive，修改后执行该文件。（要预先安装好maven才能编译）。 2.将编译好的spark源码部署到机器上，然后将hive/conf中的hive-site.xml拷贝到spark/conf目录下。然后可以通过spark-shell来测试一下，详见：http://www....

spark 写代码的三种方式、spark 整合 Hive

赤兔胭脂小吕布的博客

03-12

534

目录spark 写代码的方式1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多)2、spark shell(REPL -- 交互式的命令行)3、spark-sql(spark的SQL命令行)在进入 spark-sql 的过程中会输出很多日志，那么如何取消这些日志呢？spark 整合 Hivespark 写代码的方式 1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多) ...

项目实战——Spark将Hive表的数据写入ElasticSearch（Java版本）

10-24

在本项目实战中，我们将探讨如何使用Java编程语言，结合Spark和Hive，将Hive中的数据高效地导入到ElasticSearch（ES）中，并利用ES的别名机制实现数据更新的平滑过渡。以下是对这个流程的详细解析： 1. **Hive数据...

spark操作hive表源码

11-03

总的来说，通过Spark 2.1的API操作Hive表，不仅提供了便捷的数据读写接口，还充分利用了Spark的计算优势。同时，深入源码可以让我们更好地理解Spark如何与Hive集成，以及数据在两者之间流动的流程，这对于优化大数据...

大数据Hadoop+HBase+Spark+Hive集群搭建教程(七月在线)1

08-03

在构建大数据处理环境时，Hadoop、HBase、Spark和Hive是四个核心组件，它们协同工作以实现高效的数据存储、处理和分析。本教程将详细介绍如何在Ubuntu系统上搭建这些组件的集群。 1. **Hadoop**：Hadoop是Apache...

spark2.3.1-with-hive

09-07

3. **Hive 表格式支持**：Spark 支持 Hive 的多种存储格式，如 ORC、Parquet 和 TextFile，这使得 Spark 可以读写 Hive 已经存在的数据，同时也意味着 Hive 的优化存储格式可以在 Spark 中使用，提高数据读取效率。...

spark读取hive数据的两种方式

热门推荐

qq_42213403的博客

06-04

1万+

spark读取hive数据常用的有两种方式一是通过访问hive metastore的方式，这种方式通过访问hive的metastore元数据的方式获取表结构信息和该表数据所存放的HDFS路径，这种方式的特点是效率高、数据量大、使用spark操作起来更加友好。二是通过spark jdbc的方式访问，就是通过链接hiveserver2的方式获取数据,这种方式底层大题上跟spark链接其他rdbms上一样，可以采用sql的方式先在其数据库中查询出来结果再获取其结果数据，这样大部分数据计算的压力就放在了数.

Spark 读写Hive 表

Nice的博客

07-31

7661

Spark 操作Hive可以采用两种方式，一种是在Spark-sql中操作Hive表，另一种是通过Hive 的MetaStore在IDEA中操作Hive表，接下来分别介绍这两种方式 Spark-Shell操作Hive表 1.环境配置将hive.xml 放置到Spark的conf目录下面，这里可以采用软连接的方式操作将MySQL的驱动包放到Spark的jars目录下面，方便Spark连接MySQL 2.进入spark-sql客户端 $SPARK_HOME/bin/spark-sql spark-.

Spark 从Hive表中读数据或向Hive中写入数据

pageniao的博客

07-27

2469

Spark SQL支持在Hive中的数据读写，但是Hive中有大量的依赖在Spark中不存在，所以在使用过程中要配置这些依赖。 Configuration of Hive is done by placing your hive-site.xml, core-site.xml (for security configuration), and hdfs-site.xml (for HDFS configuration) file in conf/. 下面是使用Hive的测试： import org.apac

spark jdbc写数据到Hive

m0_58032574的博客

02-02

1215

由于spark本身是不支持jdbc写入hive的，我们这里通过byzer做了实现，byzer自带了HiveJdbcDialect，有了这个功能后，我们通过save是可以正常创建表结构的，然后就拷贝hdfs数据，并通过原生的hive load data关联hdfs文件数据。

Spark-SQL与hive整合【版本spark1.6.0+hive0.14】--Standalone模式

bbaiggey_bigdata的博客

03-10

2775

在进行离线大数据处理工程中，使用hive进行运算出现了瓶颈，由于文件太大，集群的block块采用的是默认128M没有进行调整，而且集群规模比较小，只有4个节点，机器配置： 2台32core,内存14.5G 1台32core，内存30.3G 1台32core，内存46.1G 在进行分析过程中，有大量的left jion和group by 以及sum count HQL各种嵌套

spark 将dataframe数据写入Hive分区表

weixin_33939843的博客

04-20

2172

从spark1.2 到spark1.3，spark SQL中的SchemaRDD变为了DataFrame，DataFrame相对于SchemaRDD有了较大改变，同时提供了更多好用且方便的API。DataFrame将数据写入hive中时，默认的是hive默认数据库，insertInto没有指定数据库的参数，本文使用了下面方式将数据写入hive表或者hive表的分区中，仅供参考。1、将DataFra...

Spark 将DataFrame的数据写入Hive分区表

空藍性忘的博客

12-25

1842

方法1 用 insertInto 该方法按照 df 中字段顺序确定字段与分区字段，与 df 的列名无关 mode(“overwrite”)：新数据以覆盖方式写入原有分区（其它分区不受影响） mode(“append”)：新数据以追加方式写入原有分区 val df: DataFrame = ... // 开启 Hive 表动态分区 spark.sql("set hive.exec.dynamic.partition=true") spark.sql("set hive.exec.dynamic.partit

idea中spark读写hive测试

03-16

1. 首先需要在idea中添加spark和hive的依赖，可以在pom.xml文件中添加以下代码： ```  <groupId>org.apache.spark <artifactId>spark-core_2.11 <version>2.4.5 <groupId>org....