大数据行舟
实战为线索,遇到的hadoop,spark,flink实践技巧,问题解决
黑肚皮的窝
这个作者很懒,什么都没留下…
展开
-
spark和Hive统计结构不一样的问题解决
问题:select * from dws.dws_examplewhere dt = '2021-10-19' limit 10;用Hive可以读取。但是用spark-sql读取没有结果。并且读取另外的分区,select * from dws.dws_examplewhere dt = '2021-10-19' limit 10;都能读取到记录。解决思路:到hive里show create table得到结果:| 'orc.compress'='S...原创 2021-10-22 10:55:38 · 714 阅读 · 0 评论 -
Flink 1.10 :第一次运行报错:ClassNotFoundException: yarn.exceptions.YarnException
flink有三种启动方式。本地方式,集群方式,和flink on yarn。现在说第三种生产上最常用的flink on yarn方式。首先启动flink on yarn。出现问题:第一次运行报错:ClassNotFoundException: yarn.exceptions.YarnException这个错误,解决方法很简单。需要把把官方的flink-shaded-hadoop-2-uber-2.7.5-7.0.jar放到flink的lib目录里。由于这个包在国外服务器上,下载很慢,原创 2021-10-22 10:37:12 · 1131 阅读 · 0 评论 -
Zeppelin社区给力支持下,解决Zeppelin上的Flink生产环境运行问题
背景: Zeppelin一个强大的可视化数据分析工具。它是基于Web的笔记本,可通过SQL,Scala等实现数据驱动的交互式数据分析和协作文档。功能及其强大,可以快速接入Spark,Python,R等数据分析语言工具。数据源可以接入MySQL,Kylin,Hive等几十种数据源。 在现在实时处理神器Flink如火如荼的当下,将Zeppelin接入Flink,实现实时,批数据处理,报表生成,对数据开发分析人员,无疑是一个有力的助力。 现在Flink接入阿里开源生态后,版本迭代的非常迅速,功能也提升的比较原创 2020-09-30 16:53:09 · 1224 阅读 · 1 评论 -
PyFlink SQL的json解析函数
当你遇到大数据里含有json时候,离线数仓开发,hive有特别好用的get_json函数。例如下面的:SELECT get_json_object(xjson,"$.[0].age") FROM person但遇到实时处理该咋办?同学们会说,Flink SQL里不是有吗?好吧,你太想当然了。在FlinkSQL,特别是最好用的FlinkSQL里,居然没有成型的JSON解析函数。根据遇到的情形,有好几种方式。如果遇到的是json有固定结构,那在定义flinkSQL的表结构里可以。比原创 2021-10-22 10:36:18 · 1085 阅读 · 0 评论
分享