sparking Streaming version 2.3.2+kafka接收实时流数据找不到hive创建的数据库问题

最新推荐文章于 2024-05-27 00:15:00 发布

Apes_001

最新推荐文章于 2024-05-27 00:15:00 发布

阅读量462

点赞数

本文链接：https://blog.csdn.net/qq_43506520/article/details/83993074

版权

本文介绍了在使用Spark Streaming version 2.3.2结合Kafka接收实时流数据时，遇到无法找到由Hive创建的数据库的问题。关键在于Spark多次创建SparkContext导致与Hive的整合失败。解决方案是确保先初始化SparkSession，并用其创建的变量来构建StreamingContext，以确保SparkContext支持Hive，从而能够正确查询和操作Hive数据库。

摘要由CSDN通过智能技术生成

关于sparking Streaming version 2.3.2+kafka接收实时流数据找不到hive创建的数据库问题。

当程序报错遇到bug 的时候而你又求助于论坛的时候不能着急！！！查看log或者把别人的文章认真看完说不定你遭遇的问题别人也曾经入过坑并解决过
这是spark Streaming 2.3.2版本的官方demo
在这里插入图片描述
这个里 spark streamingContext的坑是

这里会创建一个SparkContext
这个StreamingContext()是spark Streaming的入口当你想要把接收kafka后的数据进行hive存储到HDFS就需要在官方demo上加上enableHiveSupport()

也就是
spark 要整合hive 一般要这样写：

 val warehouseLocation = new File("spark-warehouse").getAbsolutePath
    val spark = SparkSession.builder().appName("youappName").
      c

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Apes_001

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark(35) -- SparkStreaming -- 概述

erainm

10-07

623

1. Streaming 应用场景 2. Lambda 架构 3. Streaming 计算模式 4. SparkStreaming 计算思想 5. 什么是Spark Streaming 6. 为什么要学习Spark Streaming 7. SparkStreaming与Storm的对比

JAVA 实现 Flume+Kafka+SparkStreaming 最简单的统计用户行为日志案例

qq_38423171的博客

12-01

1106

1、准备工作阿里云服务器或者Linux 虚拟机（至少8G内存，作者使用的是阿里云CentOS 8.2 64位2 核 8 GiB） Windows 环境下装了IDEA的电脑 Linux 安装了 java8 环境阿里云开放了可能用到的端口安全组策略 2、配置服务 2.1 logback 整合 Flume 创建 Springboot WEB 项目引入下列依赖, Springboot start Web 省略 <dependencies> ...

参与评论您还未登录，请先登录后发表或查看评论

SparkStreaming

糊里糊涂走进大数据的小菜鸡

01-07

1479

在大数据的各种框架中，hadoop无疑是大数据的主流，但是随着时代发展，hadoop只适用于离线数据的处理，无法应对一些实时数据的处理分析，我们需要一些实时计算框架来分析数据。因此出现了很多流式实时计算框架，比如Storm，Spark Streaming，Samaz等框架，本文主要讲解Spark Streaming的工作原理以及如何使用。 1. SparkStreaming SparkStreaming是微批处理，每隔一段时间处理一次，每隔一段时间将接收到的数据封装成一个rdd, 再触发一个job处理r.

Spark（1.2.0） Streaming 集成 Kafka 总结 [复制链接]

小飞侠的博客

04-26

842

最近在做利用Spark streaming和Kafka进行数据分析的研究，整理一些相应的开发文档，做了一些代码实践。本文特意将这些资料记录下来。本文最后列出了一些参考的文档，实际调研中参考了很多的资料，并没有完全将它们记录下来，只列出了主要的一些参考资料。当前的版本： Spark: 1.2.0 Kafka: 0.8.1.1 Spark Streaming属于

SparkStreaming----复习

weixin_44400664的博客

12-25

223

一、SparkStreaming概述数据处理类型分类静态数据数据源是不变的、有限的、显式离散的多适用于批量计算、离线计算流数据数据是变动的、无限的、连续的多适用于实时计算，能在秒级、秒内处理完成实时数据分类：小时级、分钟级、秒级 sparkstreaming是什么简单来说微批处理的流式（数据）实时计算框架。原理：是把输入数据以某一时间间隔批量的处理，当批处理间隔缩短到秒级时，即可用于处理实时数据流。优点可以和spark core、sparksql等无缝集成支持从多种数

Kafka + Spark Streaming + Redis 实战项目

我丶怀念的的博客

08-13

3876

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算。我们...

sparking:有关如何使用 Spark 和 Spark 流的操作方法、示例和教程的集合

06-01

Spark流（Spark Streaming）是Spark的一个模块，用于处理连续的数据流，它提供了基于微批次处理的实时数据流分析。Spark流将实时数据流分割成一系列小的批处理任务，然后用Spark引擎来快速处理。这种设计允许开发者...

如何基于日志，同步实现数据的一致性和实时抽取?

gao2175的博客

07-17

769

一、背景事情是从公司前段时间的需求说起，大家知道宜信是一家金融科技公司，我们的很多数据与标准互联网企业不同，大致来说就是：玩数据的人都知道数据是非常有价值的，然后这些数据是保存在各个系统的数据库中，如何让需要数据的使用方得到一致性、实时的数据呢？过去的通用做法有几种，分别是： DBA开放各个系统的备库，在业务低峰期（比如夜间），使用方各自抽取所需数据。由于抽取时间不同，各个数据使用方数据...

Maxwell,Kafka, Spark Streaming and Hive

weixin_34186128的博客

10-10

243

为什么80%的码农都做不了架构师？>>> ...

Scala代码积累之spark streaming kafka 数据存入到hive源码实例

03-01

Scala代码积累之spark streaming kafka 数据存入到hive源码实例，Scala代码积累之spark streaming kafka 数据存入到hive源码实例。

sparkStreaming基础知识整理

qq_41704237的博客

08-26

459

sparkStreaming 是一种流处理框架，支持多种数据源和多种输出，是一中微批处理，主要的数据结构是：DStream 离散数据流，由多个RDD组成，每一个微批都是一个RDD。 Spark Streaming 的入口需要单独创立，因为sparkSession中灭有整合：创建如下： val conf=new SparkConf().setMaster(“local[*]”).setAppName(“kgc streaming demo”) val ssc=new StreamingContext(co

Spark综合学习笔记（五）SparkStreaming介绍

斯特凡今天也很帅的博客

11-17

822

学习zlxxxxooooooooooooo# - Sparking Streaming在Spark中的位置 20211110-20211116,086110840006,21329 Spark Streaming是Spark生态系统当中一个重要的框架，它建立在Spark Core之上，下图也可以看出SparkingStreaming在Spark生态系统中地位。 - 官网中的介绍 -特点 -SparkStreaming数据处理流程 SparkStreaming是一个基于SparkCore之上的实时计

SparkStreaming+kafka+hive的整合

gcyFrist的博客

09-26

1358

这里是目录kafka安装kafkaKafka测试hive 安装SparkStreamingSparkStreaming+kafka+hive的代码 kafka Kafka是个什么东西 – kafka是一个高吞吐的分部式消息系统 kafka的特点： – 解耦 – 缓冲官网：https://kafka.apache.org/ kafka集群有多个Broker服务器组成，每个类型的消息被定义为top...

大数据开发之Spark（spark streaming）

key_honghao的博客

01-25

1731

需要继承receiver，并实现onstart、onstop方法来自定义数据源采集。

Spark Streaming初步使用以及工作原理详解

weixin_33778544的博客

05-14

126

一、流式计算 1.什么是流？ Streaming：是一种数据传送技术，它把客户机收到的数据变成一个稳定连续的流，源源不断地送出，使用户听到的声音或看到的图象十分平稳，而且用户在整个文件送完之前就可以开始在屏幕上浏览文件。 2.常见的流式计算框架 Apache Storm Spark Streaming Apache Samza 上述三种实时计算系统都是开源的分布式系统，具有低延迟、可扩展...

Kafka+SparkStream+Hive

04-04

1796

目前的项目中需要将kafka队列的数据实时存到hive表中。 1、场景介绍：数据发往kafka，用spark读取kafka的数据，写入到hive表里面（ORC压缩算法，一个分区字段） 2、hive的介绍：hive表是分区表分区的字段是一个，想要使用动态分区，hive的压缩算法是ORC FILE 使用spark的组件spark streaming 可以流式的读取kafka的数据，并且直接写入到...

spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql

偏执狂才能生存！热忱比专业知识更重要.........

08-15

1293

spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql. 数据清洗过程比较复杂，没办法，上游给的屡一样的数据，正则去解析并全量按时间取最新一条去重。每天kafka数据5千万条。1分钟要刷一次，看上去还可以满足。只有屡一样去堆代码了。 package biReportJob.streaming import jav...

SparkStreaming概述

sparking Streaming version 2.3.2+kafka接收实时流数据找不到hive创建的数据库问题

关于sparking Streaming version 2.3.2+kafka接收实时流数据找不到hive创建的数据库问题 。

关于sparking Streaming version 2.3.2+kafka接收实时流数据找不到hive创建的数据库问题。