- 博客(45)
- 收藏
- 关注
原创 idea使用Scala编写第一个Kafka+Flink问题总结
1.需要添加flink-streaming-scala_2.11的pom文件2.如果报隐式转换失败:Error:(20, 31) could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformation[String]在代码中引入一下包:...
2019-06-06 17:03:47
1335
原创 Windows平台下kafka+flink开发环境搭建
1.准备工作安装JDK1.8(注意最好设置环境变量JAVA_HOME)安装SCALA 2.112.kafka安装由于kafka自带zookeeper所以下载下来就能使用。1.进入当前目录的DOS界面:在 kafka 目录,按住shift+鼠标右键->在此处打开命令窗口(W)2.开启zookeeper服务bin\windows\zookeeper-server-start.ba...
2019-06-06 10:08:30
1807
1
原创 Hive几个特别有意思的函数
1.str_to_map(text[, delimiter1, delimiter2])函数返回一个map<string,string>其中Delimiter1将文本分成K-V对,Delimiter2分割每个K-V对。对于delimiter1默认分隔符是’,’,对于delimiter2默认分隔符是’=’。例如1:> select str_to_map(‘key1:value1...
2019-06-04 22:54:45
477
1
原创 hive性能优化使用map join
在实际业务逻辑中经常进行两张表的join,不管是两张大表关联还是一张大表一张小表关联会出现经常数据倾斜。下面介绍一下我在工作使用的总结: 原始数据page_test  原始数据city1.Common join原理(select a.user_id,...
2019-06-02 20:06:21
4808
原创 hive性能优化使用group by替代distinct原理
日常业务统计中经常使用除重(distinct)操作,但是当出现某一组数据特别多时就会出现数据倾斜。于是在SQL编写的时候就使用group by来代替distinct,从而让执行效率提升。下面说一下个人的理解。原始数据page_test表1.distinct底层实现原理(select city,count(distinct user_id) from page_test group by ci...
2019-06-02 17:26:43
7997
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅