没事看看书

记录点点滴滴

基于Scala构建分布式调度ETL系统Akkaflow

akkaflow 演示系统: 点击这里 用户/密码:admin/admin 项目地址:点击这里 简介 akkaflow是一个基于akka架构上构建的分布式高可用ETL调度工具,可以把一个job中子任务按照拓扑关系在集群中不同的节点上并行执行,高效利用集群资源;提供多个工具节点,可监控...

2017-04-02 23:37:45

阅读数 3566

评论数 4

hive中的distribute by, order by, sort by简述

hive的一些心得记录

2016-09-28 11:39:03

阅读数 568

评论数 0

Elasticsearch使用笔记

这是ElasticSearch使用过程中的一些常用命令记要,简单整理了下,方便以后翻阅。

2016-04-21 18:32:29

阅读数 2782

评论数 0

基于phoenix的用户清单查询

在没有分布式Nosql数据库之前,移动、电信用户扣费清单查询、通话清单查询,是一件很头疼的事情。而hbase提供了海量数据的毫秒级查询。可见,hbase是个非常好的实时查询框架,缺点就是查询功能非常薄弱,仅限于通过行键查询,而phoenix是构建于hbase之上的,提供了HBase的sql访问功能...

2016-04-19 16:52:25

阅读数 1206

评论数 2

tomcat配置https单向认证笔记

tomcat使用https是为了保证隐私数据能够加密传输,不被别人截取破解传输信息。 https认证过程涉及到对称加密与非对称加密,多次握手,相对于http协议是比较费时的。

2016-01-20 11:28:23

阅读数 3642

评论数 0

Hive 分析函数lead、lag实例应用

Hive的分析函数又叫窗口函数,在oracle中就有这样的分析函数,主要用来做数据统计分析的。 Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。 这种操作可以代替表的自联接,并且LAG和LEAD有更高的效率,其中over()表示...

2015-12-31 15:34:21

阅读数 11613

评论数 0

CDH运维列表2

个人工作以来遇到的问题记录及解决

2015-12-11 14:28:05

阅读数 1254

评论数 0

Hive UDF开发指南

编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个...就相对复杂点。

2015-12-11 11:59:46

阅读数 3127

评论数 2

Hive UDTF开发指南

在这篇文章中,我们将深入了解用户定义表函数(UDTF),该函数的实现是通过继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF这个抽象通用类, UDTF相对UDF更为复杂,但是通过它,我们读入一个数据域,输出多行多列,而UDF只能输出单行单列

2015-12-07 00:21:40

阅读数 5688

评论数 1

Hive UDAF开发详解

说明 这篇文章是来自Hadoop Hive UDAF Tutorial - Extending Hive with Aggregation Functions:的不严格翻译,因为翻译的文章示例写得比较通俗易懂,此外,我把自己对于Hive的UDAF理解穿插到文章里面。 udfa是hive中用...

2015-11-30 11:36:29

阅读数 9900

评论数 1

CDH5.2挂载fuse-dfs问题解决

CDH5.2挂载fuse-dfs问题解决

2015-11-26 17:16:02

阅读数 1254

评论数 0

CDH运维问题列表

我在使用hadoop过程中,积累及解决的一些问题

2015-11-09 19:44:20

阅读数 3822

评论数 0

ftp提取文件到hdfs

实际场景中,我们经常需要通过ftp协议把不同数据源的文件统一汇入到hdfs数据中心,经过实践,有以下的三种方法,分别列出其优缺点及适用场景。

2015-11-09 17:05:29

阅读数 4145

评论数 0

hive权限管理之实践

一、实践心得 领导说公司集群的hive要进行权限管理,然后身为底层码农的我就开始找资料进行配置实践,关于这方面的资料也不少, 主要参考这个连接,里面说得也挺详细的。http://www.aboutyun.com/thread-12549-1-1.html 总结如下: 1、若赋予用户某个表的权限,...

2015-10-30 16:33:24

阅读数 6035

评论数 0

自定义MapReduce的InputFormat,提取指定开始与结束限定符间的内容

在编写MapReduce程序时,常用的TextInputFormat是以换行符作为Record分隔符的,即该行的内容作为MapReduce中map方法中的value,而该行头在文件中的偏移值作为key。但是在实际应用中,我们在提取日志内容时,有可能遇到一条Record包含多行的情况,并且要提取字段...

2015-10-27 09:25:27

阅读数 1764

评论数 2

提示
确定要删除当前文章?
取消 删除