Gavin博客专栏

Oracle BI Hadoop

ElasticSearch DSL结构的一些说明

对于初次接触elasticsearch(界内简称es)的童鞋来说,DSL是挺晦涩难懂的,不知道为什么要这样嵌套,自己写老是会出错,下文给你一个思路读懂DSL,大神可跳过。 官方文档: https://www.elastic.co/guide/en/elasticsearch/...

2018-03-19 20:39:15

阅读数 900

评论数 0

Azkaban源码阅读

目录结构: Azkaban分为8个大模块: az-core:基础模块. azkaban-common:公共模块. azkaban-db:提供访问数据库模块. azkaban-exec-server:具体执行任务的模块. azkaban-web-server

2017-12-28 14:56:55

阅读数 1521

评论数 2

NAT模式实现局域网物理机与虚拟机的互通访问

玩过虚拟机的朋友都知道,不管是vbox还是vm,最常用的网络设置也不外乎3种: 1、桥接模式:此模式下,虚拟机的操作系统就像和物理机同一段网络中的物理机一样,它可以访问网络中的任何机器,同时只要物理机可以访问网络,虚拟机也可以实现上网。此模式是懒人模式首选!但换来一个问题就是,如果你的物...

2017-08-12 23:07:07

阅读数 40894

评论数 15

Kettle的使用分享

一、下载与安装下载地址:https://sourceforge.net/projects/pentaho/files/Data%20Integration/ 将下载的zip文件解压到任意路径(最好是英文不带空格的路径,以免引起乱码等未知问题) 文件结构:(不包括打马赛克的文件夹) li...

2017-07-27 13:01:22

阅读数 6751

评论数 0

Informatica的下载安装和配置

本文主要讲解从下载,安装到配置,直至可以愉快进行Mapping开发的整个过程的一些简要说明。

2017-07-27 00:21:18

阅读数 13831

评论数 4

内存小于16GG搭建Hadoop集群的一些个人观点

很多同鞋在学习大数据过程中,也会在自己电脑上搭建环境,但是内存不足确实是个让人头疼的问题,废话不多说,个人有如下一些想法,分享给大家:1、使用apache原生的hadoop来搭建集群,除了配置繁琐之外,还可能会有很多版本兼容性的问题(这很是头疼的问题),当然在一些组件的官网有明确的版本依赖性说明,...

2017-07-09 16:13:58

阅读数 5363

评论数 0

kudu创建表时候遇到的问题

在自己的实验集群(单节点)上,通过impala-shell创建kudu表时候,报如下错误:CAUSED BY: NonRecoverableException: Not enough live tablet servers to create a table with the requested ...

2017-07-09 16:13:22

阅读数 4752

评论数 2

启动YARN时,ResourceManager 和 NodeManager报错 Error found before invoking supervisord dictionary update s

在通过CM启动Yarn服务时候,不同的版本可能都会遇到同样的一个问题,如下图所示: Error found before invoking supervisord: dictionary update sequence element #89 has length 1; 2 is r...

2017-07-01 15:53:39

阅读数 3798

评论数 1

安装CDH时候出现主机运行状态不良情况的解决

> 发现很多兄弟在安装CDH过程的分配这一步,总是遇到“主机运行状态不良”的提示,当然我也遇到过。 解决办法就是,根据自己安装的cm版本来删除文件,我的路径是: rm -f /opt/cloudera-manager/cm-5.11.1/lib/cloudera-s...

2017-07-01 13:02:19

阅读数 12848

评论数 1

kudu踩坑记之一

在开发过程中,难免会手误,由于在通过impala-shell建kudu表时候把bigint类型的字段写成了string,以致后面在计算时候报错。但由于该表有2亿的数据(交易明细表),不可能重新抽取,于是按照关系型数据库的思维来操作。 1、暂以A表示原表,新建一个正确的表B, 2、i...

2017-06-29 20:30:18

阅读数 4989

评论数 0

Apache Kudu 简介

Introducing Apache KuduKudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性,运行在一般的商用硬件上,支持水平扩展,高可用,目前是Apache Hadoop生态圈的新成员之一(incubating)。Kudu的设计...

2017-06-29 18:42:57

阅读数 759

评论数 0

暴力卸载CDH 5.x

删除前最好将之前的下载的rpm包或cloudera-manager-el6-cm5.x__x86_64.tar.gz及parcels包备份一下.以下步骤,执行时候请三思,小心误删或者杀错非cdh集群进程,没有则跳过.1.停止servicerpm包安装方式执行以下命令:service clouder...

2017-06-05 15:25:28

阅读数 2704

评论数 7

MR解析hdfs操作日志文件示例

针对如下样例文件:2016-04-03 22:53:19,912 INFO FSNamesystem.audit: allowed=true ugi=hdfs (auth:SIMPLE) ip=/192.168.0.4 cmd=getfileinfo src=/tmp dst=null...

2017-06-04 17:18:48

阅读数 1603

评论数 2

提示
确定要删除当前文章?
取消 删除