数据转储(Kafka-spark-hive)

当时在研究大数据平台的时候,(Kafka-spark-hive)数据转储时一个难点,下面是一部分调研工作,只用于记录,不保证正确性,嘻嘻嘻

  • 1问:kafka输出的是什么样子的数据?
  • 1答:一般是json类型的数据。
  • 2问:sparkstreaming 怎么处理来自kafka的数据?
  • 2答:有两种模式。可利用Receiver 的方式,或者不利用。
  • 3问:sparkstreaming处理完的数据输出是什么形式?
  • 3答:json可以转换为DataFrame
  • 4问:spark处理后的数据怎么存储到hive中?
  • 4答:将DataFrame写进hive表里

部分资料来源:

这整个的实现过程,好像可以通过一段代码来实现
一体式操作,Spark消费kafkaf的数据,解析数据并将数据存入到Hive中,
详见博客:https://blog.csdn.net/u012164361/article/details/79742201

SparkStreaming整合Kafka时,通常Kafka发送的数据是以JSON字符串形式发送的,这里总结了五种SparkStreaming解析Kafka中JSON格式数据并转为DataFrame进行数据分析的方法。
详见博客:https://blog.csdn.net/shirukai/article/details/85211951

实例过程,感觉可能会有一点点的参考价值:
详见博客:https://www.cnblogs.com/kangoroo/p/7754581.html

首先列出讲述下面几种导入方式的数据和hive表。

  • 导入:

本地文件导入到Hive表;
Hive表导入到Hive表;
HDFS文件导入到Hive表;
创建表的过程中从其他表导入;
通过sqoop将mysql库导入到Hive表;

  • 导出:

Hive表导出到本地文件系统;
Hive表导出到HDFS;
通过sqoop将Hive表导出到mysql库;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值