- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 Scala学习笔记1——初始Scala
引入最近因为Spark的兴起,Scala也炙手可热,个人并不认为它是一个新兴的编程语言,虽然它提供了全新的语法,本文主要介绍Scala环境和几种运行方式,以及通过实例观察Scala和JAVA的关系,学习Scala主要参考Scala语法手册和Scala实例。Scala环境Linux上可以使用类似于JDK环境安装的方式,下载Scala,设置PATH,不过我在Scala官网上找了半天Linux包才在这里找
2016-10-22 18:51:55 6524
原创 Impala客户端访问实例
Impala作为一个SQL引擎,必然提供了Jdbc访问接口,特殊的是Impala完全兼容hiveserver2的接口,所以我们可以使用的客户端包括:beelineimpala-shellzeppelinhue前两种作为shell方式提供,其中beeline是hive的jdbc客户端(类似于mysql客户端),使用!connect的方式连接服务器,url的结构为jdbc:hive2://ho
2016-10-21 16:57:22 11299 1
原创 Impala部署、权限、资源隔离杂谈
概述最近一直在倒腾Impala,公司内部也属于刚刚部署使用,初次体验感觉性能还是比较好的(可能是使用Hive过多的原因),并且Impala还可以支持Kudu引擎,这个目前看上去是实时离线统一的较好解决方案,因此考虑在公司内部推广使用,但是一旦给多个产品部署、使用就需要考虑如下的几个问题:部署方式:它决定了以后的扩展性和运维复杂度等。权限隔离:如何做到用户的数据不被他授权的用户查询。资源隔离:用
2016-10-07 18:19:02 7789 1
原创 自己动手写Impala UDF
概述出于对可扩展性和性能的考虑,UDF已变成大数据生态圈查询引擎的必备功能之一,无论是Calcite、Hive、Impala都对其进行支持,但是UDF的支持有利也有弊,好处在于它提供了对某些用户独有需求的支持,例如某些产品需要将表中的某字段使用自定义的方式解析成可读字段,例如需要实现特殊的聚合函数;它的弊端在于它对用户开发,这样对于恶意的用户可能执行非正常的逻辑.
2016-10-06 23:29:11 9871 3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人