SparkStream实时更新hive表数据（获取用户前N条记录）

最新推荐文章于 2022-11-03 09:50:05 发布

ciqingloveless

最新推荐文章于 2022-11-03 09:50:05 发布

阅读量1.2k

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ciqingloveless/article/details/93046814

版权

hadoop 专栏收录该内容

20 篇文章 1 订阅

订阅专栏

这个功能主要是实现，SparkSteam实时更新覆盖原表数据，不是追加，由于业务需求，需要不断获取每个用户前N条信息用于数据查询，考虑过直接insert hive表，但是由于hive的jdbc不稳定，容易出现断线、崩溃等问题，所以采用了直接写hdfs的形式。

class SparkRealTimeAnalysisWebService() {

  def realTimeDataAlysis(dstream: DStream[String]): Unit = {
    val formatData = SparkRealTimeDataEtl().dataFormat(dstream)
    formatData.updateStateByKey(etlFunc).flatMap(_._2).map(x=>{
      x.get("e")+"|"+x.get("f")+"|"+x
    }).foreachRDD(rdd=>{
      rdd.saveAsTextFile("/a")
    })
  }


  val etlFunc = (currValues: Seq[java.util.HashMap[String, String]], prevValueState: Option[Seq[java.util.HashMap[String, String]]]) => {
        val prevSeq = prevValueState.getOrElse(Seq[java.util.HashMap[String, String]]())
        val unionMap = if (prevSeq.isEmpty) currValues else  (currValues++:prevSeq).take(100)
        Some(unionMap)
  }
}

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SparkStream实时更新hive表数据（获取用户前N条记录）

这个功能主要是实现，SparkSteam实时更新覆盖原表数据，不是追加，由于业务需求，需要不断获取每个用户前N条信息用于数据查询，考虑过直接insert hive表，但是由于hive的jdbc不稳定，容易出现断线、崩溃等问题，所以采用了直接写hdfs的形式。class SparkRealTimeAnalysisWebService() { def realTimeDataAlysis(ds...
复制链接

扫一扫

专栏目录

ciqingloveless CSDN认证博客专家 CSDN认证企业博客

码龄15年

236: 原创

3万+: 周排名

64万+: 总排名

27万+: 访问

: 等级

4632: 积分

107: 粉丝

155: 获赞

160: 评论

472: 收藏

私信

关注

热门文章

分类专栏

运维 10篇
PostgreSQL 8篇
ai与算法 1篇
openresty 2篇
k8s 5篇
JAVA 22篇
MySql 75篇
深入理解计算机系统 23篇
数据迁移 3篇
Linux 9篇
数据库优化 5篇
黑客技术 6篇
oracle 20篇
编译原理 1篇
gitlib 1篇
Airflow 5篇
python 4篇
hadoop 20篇
Spark 17篇

最新评论

深入理解计算机系统练习题3.8 理解计算机二元操作
2301_80379808: 最后一题怎么得的
apache impala3.4编译安装
MeiyaGuoyun: 麻烦请教一下 >>> Downloading and extracting toolchain dependencies. Traceback (most recent call last): File "/data/impala/bin/bootstrap_toolchain.py", line 591, in <module> if __name__ == "__main__": main() File "/data/impala/bin/bootstrap_toolchain.py", line 574, in main downloads += get_toolchain_downloads() File "/data/impala/bin/bootstrap_toolchain.py", line 469, in get_toolchain_downloads llvm_package = ToolchainPackage("llvm") File "/data/impala/bin/bootstrap_toolchain.py", line 255, in __init__ label = get_platform_release_label(release=platform_release).toolchain File "/data/impala/bin/bootstrap_toolchain.py", line 414, in get_platform_release_label raise Exception("Could not find package label for OS version: {0}.".format(release)) Exception: Could not find package label for OS version: openEuler22.
深入理解计算机系统寄存器寻址讲解
liyunyiSun: 立即数寻址部分写的有问题
apache impala3.4编译安装
无敌小昊昊: 大佬，能分享一下编译好的包吗，实在是搞不定了
深入理解计算机系统练习题2.32 答案与分析
LuHe123_ye: 判断条件写错位置了吧，应该写在sub里面？add里面就无法判断两个负数加法的情况了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。