自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 idea使用Scala编写第一个Kafka+Flink问题总结

1.需要添加flink-streaming-scala_2.11的pom文件2.如果报隐式转换失败:Error:(20, 31) could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInformation[String]在代码中引入一下包:...

2019-06-06 17:03:47 1335

原创 Windows平台下kafka+flink开发环境搭建

1.准备工作安装JDK1.8(注意最好设置环境变量JAVA_HOME)安装SCALA 2.112.kafka安装由于kafka自带zookeeper所以下载下来就能使用。1.进入当前目录的DOS界面:在 kafka 目录,按住shift+鼠标右键->在此处打开命令窗口(W)2.开启zookeeper服务bin\windows\zookeeper-server-start.ba...

2019-06-06 10:08:30 1807 1

原创 Hive几个特别有意思的函数

1.str_to_map(text[, delimiter1, delimiter2])函数返回一个map<string,string>其中Delimiter1将文本分成K-V对,Delimiter2分割每个K-V对。对于delimiter1默认分隔符是’,’,对于delimiter2默认分隔符是’=’。例如1:> select str_to_map(‘key1:value1...

2019-06-04 22:54:45 477 1

原创 hive性能优化使用map join

在实际业务逻辑中经常进行两张表的join,不管是两张大表关联还是一张大表一张小表关联会出现经常数据倾斜。下面介绍一下我在工作使用的总结: 原始数据page_test ![原始表page_tes](https://img-blog.csdnimg.cn/2019060218111211.png) 原始数据city1.Common join原理(select a.user_id,...

2019-06-02 20:06:21 4808

原创 hive性能优化使用group by替代distinct原理

日常业务统计中经常使用除重(distinct)操作,但是当出现某一组数据特别多时就会出现数据倾斜。于是在SQL编写的时候就使用group by来代替distinct,从而让执行效率提升。下面说一下个人的理解。原始数据page_test表1.distinct底层实现原理(select city,count(distinct user_id) from page_test group by ci...

2019-06-02 17:26:43 7997 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除