spark sql读取hive底层_scala – 从一个hive表中读取并使用spark sql写回来

最新推荐文章于 2022-11-04 14:18:09 发布

Pellegrini

最新推荐文章于 2022-11-04 14:18:09 发布

阅读量310

点赞数

文章标签： spark sql读取hive底层

本文链接：https://blog.csdn.net/weixin_42496673/article/details/112994631

版权

我正在使用Spark SQL读取Hive表并将其分配给

scala val

val x = sqlContext.sql("select * from some_table")

然后我正在使用数据帧x进行一些处理,最后得到一个数据帧y,它具有与表some_table一样的精确模式.

最后,我试图将y数据帧覆盖到同一个hive表some_table

y.write.mode(SaveMode.Overwrite).saveAsTable().insertInto("some_table")

然后我收到错误

org.apache.spark.sql.AnalysisException: Cannot insert overwrite into table that is also being read from

我尝试创建一个insert sql语句并使用sqlContext.sql()触发它,但它也给了我同样的错误.

有什么办法可以绕过这个错误吗？我需要将记录插回到同一个表中.

嗨,我尝试按照建议做,但仍然得到相同的错误.

val x = sqlContext.sql("select * from incremental.test2")

val y = x.limit(5)

y.registerTempTable("temp_table")

val dy = sqlContext.table("temp_table")

dy.write.mode("overwrite").insertInto("incremental.test2")

scala> dy.write.mode("overwrite").insertInto("incremental.test2")

org.apache.spark.sql.AnalysisException: Cannot insert overwrite into table that is also being read from.;

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Pellegrini

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

spark scala 从零建一个dataframe然后写到hive

Talk Is Cheap

04-20

277

sparkContext .parallelize(List("abc")) .toDF("the_column") .write.mode(SaveMode.Overwrite).saveAsTable("the_table")

spark sql读取hive底层_原创-spark sql 写入hive较慢优化思路

weixin_34954140的博客

12-29

1582

在《spark sql 写入hive较慢原因分析》中已经分析了spark sql 写入hive分区文件慢的原因，笔者提供几种优化思路供参考：(1)spark 直接生成hive库表底层分区文件，然后再使用add partion语句添加分区信息spark.sql(s"alter table legend.test_log_hive_text add partition (name_par='${dir...

参与评论您还未登录，请先登录后发表或查看评论

SparkSQL-Hive2ES

你宝爷的博客

04-21

355

SparkSQL-Hive2ES 一.idea local模式 VM option: -Dspark.master=local APP01 package com; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; import org.elasticsearch.spark.sql.api.java.JavaEsSparkSQL;

21. spark sql 从某一个表读取数据，之后再将数据写回原表，没有数据？

元元的李树专栏

11-08

1472

21. spark sql 从某一个表读取数据，之后再将数据写回原表，没有数据？原因：回归问题本质，Spark是惰性执行。具体解释请看如下帖子中的说明。最佳答案问题出在您的代码中.因为您覆盖了一个您尝试读取的表,所以在Spark实际访问它之前,您会有效地删除所有数据. 请记住,Spark是懒惰的.创建数据集时,Spark会提取所需的元数据,但不会加载数据.因此,没有魔法缓存可以保留...

Scala106-写入hive

此心安处是吾乡

12-23

2471

Intro 把经过处理之后的dataframe直接写入到hive中，有几种方式，分别举例说明。普通表 spark.sql 非常常见的一种方式是，通过建立临时表，写sql的方式写入 // 1、DataFrame建临时表，通过spark.sql的方式回写进去 df11.createOrReplaceTempView("temp") spark.sql("insert into tmp.test2hive select * from temp") // 删除临时表

Spark 用 scala 实现读取 hive 表进行读、写等操作

Zero小猿的博客

05-18

3848

spark 目前最常用的场景应该就是对 hive 表进行读写操作，尤其通过使用spark sql 实现数据分析、关联等操作 spark sql支持对dataframe（Dataset的特列，DataFrame=Dataset[Row] ）进行操作，很多数据分析人员习惯使用python，而python没有dataset，而且sql方式对数据进行批处理方式更为直观。 ...

spark sql读取hive底层_sparkSQL原理和使用——一般在生产中，基本都是使用hive做数据仓库存储数据，然后用spark从hive读取数据进行处理...

weixin_39780784的博客

12-20

843

1.1 什么是spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。类似于hive的作用。1.2 spark SQL的特点1、容易集成：安装Spark的时候，已经集成好了。不需要单独安装。2、统一的数据访问方式：JDBC、JSON、Hive、parquet文件(一种列式存储文件，是SparkS...

spark sql读取hive底层_sparksql读取外部数据，存储到hive数据库的问题

weixin_39860583的博客

12-20

314

老师，您好:我写了一个读取外部数据然后存储到hive的程序，有些疑惑需要您的帮忙，谢谢。代码是打jar包放到服务器上用spark-submit方式执行，代码是读取服务器上“/home/hadoop/data/student.data”数据，然后在服务器上的hive上创建一个student表，并把student.data数据保存到student表里。代码如下：object SaveDataToHiv...

spark 读取hive java_Spark2.0入门：连接Hive读写数据（DataFrame）

weixin_35397676的博客

02-26

950

【版权声明】博客内容由厦门大学数据库实验室拥有版权，未经允许，请勿转载！[返回Spark教程首页]Hive是基于Hadoop的数据仓库(要想了解更多数据仓库Hive的知识以及如何安装Hive，可以参考厦门大学数据库实验室的Hive授课视频、Hive安装指南)。本节内容介绍Spark如何连接Hive并读写数据。一、让Spark包含Hive支持为了让Spark能够访问Hive，必须为Spark添加Hi...

sparkshell 操作hive表_Spark记录-Spark-Shell客户端操作读取Hive数据(示例代码)

weixin_39633781的博客

01-14

1090

1.拷贝hive-site.xml到spark/conf下，拷贝mysql-connector-java-xxx-bin.jar到hive/lib下2.开启hive元数据服务：hive --service metastore3.开启hadoop服务：sh $HADOOP_HOME/sbin/start-all.sh4.开启spark服务：sh $SPARK_HOME/sbin/start-al...

SparkSql 用Scala语言操作Hive创建库,表,并且insert数据

张俊杰的博客

11-22

3265

Maven依赖配置文件准备直接看这个帖子 SparkSql 用Scala代码查询Hive里面的指定的表 users.json [{"name":"zhangsan" ,"age":18} ,{"name":"lisi" ,"age":15}] 代码有两种方式, demo01 是原始的SQL demo02是DataFrame的方式,DataFrame更强大, 而直接写SQL更灵活,学习成本低.其实两种都能满足业务开发. import org.apache.spark.sql.SparkSession

--- Spark学习（肆）- 从Hive平滑过渡到Spark SQL

李玉坤的博客

12-03

399

文章目录SQLContext的使用HiveContext的使用SparkSession的使用spark-shell&amp;amp;amp;spark-sql的使用thriftserver&amp;amp;amp;beeline的使用jdbc方式编程访问 SQLContext的使用 Spark1.x中Spark SQL的入口点: SQLContext val sc: SparkContext // An existing Spa...

hive+oracle属于SQL吗,Oracle、Spark、Hive SQL 正则表达式

weixin_39660408的博客

04-14

函数-函数OralceREGEXP_LIKESparkRLIKE、REGEXPHiveRLIKE、REGEXP建表OracleCREATE TABLE TEST_REGEXP (ID VARCHAR2(100),NAME VARCHAR2(100)) ;INSERT INTO TEST_REGEXP (ID, NAME) VALUES('001', '张三');INSERT INTO TEST_R...

Cannot overwrite table ods.test_orc_hivetable_write that is also being read from;

MR_REN019235的博客

10-25

1813

一个少见的spark问题，感觉贱贱的。报错如下： org.apache.spark.sql.AnalysisException: Cannot overwrite table ods.test_orc_hivetable_write that is also being read from; at org.apache.spark.sql.DataFrameWriter.saveAsTa...

Cannot overwrite table portrayal.FrequentlyStopAddr that is also being read from;

没有合适的昵称

01-09

2421

背景原因： spark SQL select 一个表，然后在overwrite 一个表解决： //将结果保存在临时表中 spark.sql("select * from result_tab").write.mode(SaveMode.Overwrite).saveAsTable("tmp_tab") // 计算逻辑 ........ //将临时表覆盖结果表 spark.sql("s...

spark报错：Cannot overwrite a path that is also being read from.

cclovezbf的博客

11-04

6366

第一个解决办法真不行。我查了下这两个参数大多是解决spark读取hive表数据量不对的情况用的。而且我设置之后还有报错就不贴出来了。为啥不用append 因为有时候会重复调用。反正就是这么个情况。大概就是获取表里的原始数据，然后从别的地方搞来的新数据两个合起来继续存到表里去。找个时间好好学习下spark的checkpoint知识。第三个这种lowb方法就不说了。这个错看起来很简单。

Spark SQL overwrite问题