当时在研究大数据平台的时候,(Kafka-spark-hive)数据转储时一个难点,下面是一部分调研工作,只用于记录,不保证正确性,嘻嘻嘻
- 1问:kafka输出的是什么样子的数据?
- 1答:一般是json类型的数据。
- 2问:sparkstreaming 怎么处理来自kafka的数据?
- 2答:有两种模式。可利用Receiver 的方式,或者不利用。
- 3问:sparkstreaming处理完的数据输出是什么形式?
- 3答:json可以转换为DataFrame
- 4问:spark处理后的数据怎么存储到hive中?
- 4答:将DataFrame写进hive表里
部分资料来源:
这整个的实现过程,好像可以通过一段代码来实现
一体式操作,Spark消费kafkaf的数据,解析数据并将数据存入到Hive中,
详见博客:https://blog.csdn.net/u012164361/article/details/79742201
SparkStreaming整合Kafka时,通常Kafka发送的数据是以JSON字符串形式发送的,这里总结了五种SparkStreaming解析Kafka中JSON格式数据并转为DataFrame进行数据分析的方法。
详见博客:https://blog.csdn.net/shirukai/article/details/85211951
实例过程,感觉可能会有一点点的参考价值:
详见博客:https://www.cnblogs.com/kangoroo/p/7754581.html
首先列出讲述下面几种导入方式的数据和hive表。
- 导入:
本地文件导入到Hive表;
Hive表导入到Hive表;
HDFS文件导入到Hive表;
创建表的过程中从其他表导入;
通过sqoop将mysql库导入到Hive表;
- 导出:
Hive表导出到本地文件系统;
Hive表导出到HDFS;
通过sqoop将Hive表导出到mysql库;