自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

eric_lee的专栏

大数据时代来临

  • 博客(44)
  • 收藏
  • 关注

转载 搭建Spark源码研读和代码调试的开发环境

Table of Contents源码获取与编译从Github上获取Spark源码编译Spark项目源码导入与代码运行导入源码到Intellij IDEA 16运行实例代码1. 配置运行参数2. 添加缺失的flume sink源代码3. 添加运行依赖的jars4. 成功运行实例代码单步调试源代码工欲善其事,必先利其器,第一篇笔记介绍如何搭建源码研

2018-01-30 11:15:19 220

转载 Hive命令行常用操作(数据库操作,表操作)

数据库操作查看所有的数据库hive> show databases ;使用数据库defaulthive> use default;查看数据库信息hive > describe database default; OK db_name comment location owner_name owner_type parame

2018-01-25 10:14:43 3582

原创 kylin建模指南

Apache Kylin的主要特点包括支持SQL接口、支持超大数据集、秒级响应、可伸缩性、高吞吐率、BI工具集成等。Apache Kylin的特色在于,在上述的底层技术之外,另辟蹊径地使用了独特的Cube预计算技术。预计算事先将数据按维度组合进行了聚合,将结果保存为物化视图。经过聚合,物化视图的规模就只由维度的基数来决定,而不再随着数据量的增长呈线性增长。在

2018-01-24 18:44:16 2831

原创 kettle小例子

crontab -l0  11  *  *  * /home/xxy_hjlj/data-integration/kettle_code/shell/kettle_job.sh[xxy_hjlj@ipcweb2 shell]$ vi kettle_job.sh /home/xxy_hjlj/data-integration/kettle_code/shell/fact_call_cou

2018-01-24 18:21:21 286

原创 datax

python bin/datax.py -p "-Dstarttime='2018-01-15 00:00:00' -Dendtime='2018-01-15 23:59:59' -Ddays='2018-01-15' " ../job/writemysql1.json{    "job": {        "setting": {       

2018-01-24 18:08:04 1142 1

转载 kylin实战总结

Apache Kylin****项目实践目前基于kylin的数据分析平台已经在业务中开始测试以及使用,并且在用户管理和权限操作方面做了的二次开发改造,以实现project和cube的安全管理。下图是cube的查询响应图表,cube 大小为157GB,包括一个事实表,14个维度和4个度量:在项目实践过程中也遇到问题:Hadoop任务内存资源不够,cube计算失败。

2018-01-22 16:00:45 797

转载 Hbase原理、基本概念、基本架构

概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是基于Google BigTable模型开发的,典型的key/value系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服

2018-01-20 21:59:52 721

转载 开源数据可视化工具(For Apache Kylin)使用说明

http://lxw1234.com/archives/2016/06/691.htmApache Kylin,很好的解决了海量数据OLAP的底层存储与分析引擎,但还缺一个数据可视化工具,可以使用户非常方便的通过图形化分析探索海量数据,而不用写SQL。于是我们发现了Caravel。原生的Caravel并不支持Kylin,也不支持多表关联,经过好友Rocky和我的修改和调试,使得Caravel支持K

2018-01-18 17:15:10 600

转载 KYLIN 例行调度 自动BULID

KYLIN提供RESTFUL 接口,通过请求&crontab 可实现例行调度参考url:http://kylin.apache.org/docs15/howto/howto_use_restapi.html#get-job-status实现步骤:1、shell脚本加入下面代码实现BULID请求java -jar KylinInterface.jar CUBE_NAME 20160806 20160

2018-01-18 13:42:39 411

转载 Apache Kylin Cube 的存储

简单的说Cuboid的维度会映射为HBase的Rowkey,Cuboid的指标会映射为HBase的Value。                      Cube映射成HBase存储    如上图原始表所示:Hive表有两个维度列year和city,有一个指标列price。如上图预聚合表所示:我们具体要计算的是year和city这两个维度所有维度组合(即

2018-01-17 16:32:51 1009

转载 Apache Kylin Buid Cube详细流程2

1、 Cube的物理模型                        Cube物理模型  如上图所示,一个常用的3维立方体,包含:时间、地点、产品。假如data cell 中存放的是产量,则我们可以根据时间、地点、产品来确定产量,同时也可以根据时间、地点来确定所有产品的总产量等。  Apache Kylin就将所有(时间、地点、产品)的各种组合实现算出来,data cel

2018-01-17 16:18:19 265

转载 Apache Kylin Buid Cube详细流程

Build Cube流程主要分为四个阶段:根据用户的cube信息计算出多个cuboid文件根据cuboid文件生成htable更新cube信息回收临时文件1.流程一:作业整体描述把构建Cube的来源表总行数写到指定的HDFS文件中2.流程二:生成中间临时数据这一步的操作是根据Cube设计中的定义生成原始数据,这里会新创建一个Hive外部表,然后再

2018-01-17 15:59:23 520

转载 Apache Kylin Cube构建算法

逐层算法在介绍快速Cube算法之前,我们先简单回顾一下现有的算法,也称之为“逐层算法”(By Layer Cubing)。我们知道,一个N维的完全Cube,是由:1个N维子立方体(Cuboid), N个(N-1)维Cuboid, N*(N-1)/2个(N-2)维Cuboid …, N个1维Cuboid, 1个0维Cuboid,总共2^N个子立方体组成的;在“逐层算法”中,按维度数逐

2018-01-17 15:57:15 177

转载 Apache kylin 原理和架构

Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。1.基本原理kylin的核心思想是预计算,理论基础是:以空间换时间。即多多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube并存储到hbase中,供查询时直

2018-01-17 15:45:18 378

转载 Apache Kylin Cube优化

Kylin 构建Cube时优化方法如下:1. Hierarchy(层级) Dimensions优化在Fact table(事实表)中的维度满足层级关系时定义这几个维度为Hierarchy。一些列具有层次关系的Dimension组成一个Hierarchy,比如年,月,日组成了一个Hierarchy。查询时指定group by year  ;  group by year ,

2018-01-17 11:52:31 164

转载 Kylin 安装以及spark cube 的创建

一. 准备 下载kylin安装包 http://www.apache.org/dyn/closer.cgi/kylin/apache-kylin-2.2.0/apache-kylin-2.2.0-bin-hbase1x.tar.gz二. 环境 1. Hadoop: 2.7+ Hive: 0.13 - 1.2.1+ HBase: 0.98 - 0.99, 1.1+ J

2018-01-16 17:24:07 299

转载 一文读懂Apache Kylin

感谢分享。http://www.jianshu.com/p/abd5e90ab051?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation“麒麟出没,必有祥瑞。”Kylin思维导图前言随着移动互联网、物联网等技术的发展,近些年人类所积累的数据正在呈爆炸

2018-01-16 11:31:13 6837

转载 kylin2.1.0+cdh5.10.1+安装部署+官方测试例子详细教程

CDH环境下kylin的安装教程 1.软件版本介绍:  cdh5.10.1Kylin: 2.1.0 2.环境检查   环境中需要启动的角色: Hive Metastore Serveryarn的JobHistory Server3.正式安装3.1 kylin2.1.0下载软件http://mir

2018-01-16 11:19:01 415

转载 Druid部署总结

druid部署

2018-01-12 16:35:19 3709

转载 caravel连接druid

druid caravel

2018-01-12 10:19:30 203

转载 caravel的安装

druid carvel

2018-01-11 17:53:35 358

转载 Druid单机测试与数据加载方法

http://druid.io/docs/0.10.1/tutorials/quickstart.html(1)Getting started下载安装Druid:curl -O http://static.druid.io/artifacts/releases/druid-0.10.1-bin.tar.gztar -xzf druid-0.10.1-bin

2018-01-11 16:51:52 583

转载 Druid.io 部署&使用文档

1.集群模式下部署Prerequisites : Java 7 or higher & Zookeeper & mysql下载Druid.io :curl -O http://static.druid.io/artifacts/releases/druid-0.9.1.1-bin.tar.gztar -xzf druid-0.9.1.1-bin.tar.gzcd d

2018-01-11 14:46:45 1955

转载 大数据常见错误解决方案(转载)

1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法:add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、j

2018-01-10 09:42:38 3493

转载 CDH 中组件升级问题(hive为例)

下面是一个例子,仅供参考:基于CM搭建的CDH集群之hive组件升级过程(hive0.13.1升级到hive-1.2.1且确保纳入CM管理)1、在hive0.13.1版本下创建lib121目录[Bash shell] 纯文本查看 复制代码?1cd/opt/cloudera/parcels/CDH/lib/h

2018-01-08 14:18:50 4365

转载 Linux安装Sqoop(CentOS7+Sqoop1.4.6+Hadoop2.8.0+Hive2.1.1)

1下载Sqoop2上载和解压缩3一系列配置          3.1配置环境变量          3.2sqoop配置文件修改                    3.2.1 sqoop-env.sh文件                             3.2.1.1新建                            3.

2018-01-08 14:00:06 352

转载 基于Spark 2.0.0搭建Hive on Spark环境

一、运行环境CentOS 7.2Hadoop 2.7Hive 2.2.0Spark 2.0.0JDK 1.7Scala 2.11.8Maven 3.3.9说明:Scala 2.11.8以后的版本只支持JDK1.8,如果环境原本是使用JDK1.7的就不需要安装最新版本。二、开始配置前的排坑很多人都会参考Hiv

2018-01-08 13:56:26 637

转载 Linux安装Sqoop(CentOS7+Sqoop1.4.6+Hadoop2.8.0+Hive2.1.1)

一、运行环境CentOS 7.2Hadoop 2.7Hive 2.2.0Spark 2.0.0JDK 1.7Scala 2.11.8Maven 3.3.9说明:Scala 2.11.8以后的版本只支持JDK1.8,如果环境原本是使用JDK1.7的就不需要安装最新版本。二、开始配置前的排坑很多人都会参考Hiv

2018-01-08 13:55:36 223

转载 Linux搭建Hive On Spark环境(spark-1.6.3-without-hive+hadoop2.8.0+hive2.1.1)

概述1各个机器安装概况2下载和解压缩各种包3配置环境变量4修改hostname文件        4.1在3台机器上执行hostname命令        4.2编辑hosts文件5 Hadoop的安装和启动        5.1设置ssh免密码登录        5.2 创建一堆目录        5.3

2018-01-08 13:47:16 2556 1

转载 Hive on Spark安装配置详解(都是坑啊)

简介本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述。背景Hive默认使用MapReduce作为执行引擎,即Hive on mr。实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark。由于Ma

2018-01-08 13:42:06 4937

转载 hive on spark的坑

装了一个多星期的hive on spark 遇到了许多坑。还是写一篇随笔,免得以后自己忘记了。同事也给我一样苦逼的人参考。先说明一下,这里说的Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是MapReduce,和Hive on Tez的道理一样。先看官网的资源Hive on Spark: Getting Started要想在Hive中使

2018-01-08 13:31:27 1055

原创 解决flume1.6中因cdh重启等导致的hdfs文件未关闭问题

flume源码修改部分,修改BucketWriter .java/** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements.  See the NOTICE file * distributed with this work

2018-01-08 11:28:58 2674

转载 工作流调度引擎---Oozie

工作流调度引擎---OozieOozie使用教程一.   Oozie简介Apache Oozie是用于Hadoop平台的一种工作流调度引擎。作用- 统一调度hadoop系统中常见的mr任务启动hdfs操作、shell调度、hive操作等。- 使得复杂的依赖关系时间触发事件触发使用xml语言进行表达开发效率提高。- 一组任务使用一个DAG来表示,使用图形表达流

2018-01-05 12:15:52 729 1

转载 基于CDH 5.9.1 搭建 Hive on Spark 及相关配置和调优

Hive默认使用的计算框架是MapReduce,在我们使用Hive的时候通过写SQL语句,Hive会自动将SQL语句转化成MapReduce作业去执行,但是MapReduce的执行速度远差与Spark。通过搭建一个Hive On Spark可以修改Hive底层的计算引擎,将MapReduce替换成Spark,从而大幅度提升计算速度。接下来就如何搭建Hive On Spark展开描述。  注

2018-01-05 12:11:16 4591 1

转载 Hive数据倾斜解决方法总结

Hive数据倾斜解决方法总结      数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候,如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候,某些节点的计算能力比较强或者需要计算的数据比较少,早早执行完了,某些节点计算的能力较差或者由于此节点需要计算的数据比较多,导致出

2018-01-05 12:09:26 3388 1

转载 CDH管理界面查看各框架的版本(hive为例)

安装好的CDH如果查看hive的版本呢,1、官网2、管理界面中官网查看一般看到的都是CDH系统默认自带的版本,如果你的CDH在运行的过程中升级过,那再参考官网的版本就会出现错误。参考:http://www.cloudera.com/documentation/enterprise/release-notes/topics/cdh_vd_cdh5_mave

2018-01-05 12:05:26 10699

转载 hive相关操作语句

1.hive查看表结构desc formatted table_name;desc table_name;122.hive建立表create table `reviews_comments_qian`(`comm_id` bigint,`post_id` bigint,`user_id` string,`comm_time` date,`comm_content` st

2018-01-04 14:13:02 161

原创 cdh5.7.4hive配置

1.1  添加hive服务 将hive服务都安装到hadoop-manager2上(列表所示)并在所有机器上存放mysql驱动,存放位置    /opt/cloudera/parcels/CDH/lib/hive/lib 选择hadoop-manager1上的mysql选择默认路径       

2018-01-04 13:59:38 537

原创 cdh5.7.4上hive的配置

cdh hive安装配置

2018-01-04 13:48:20 928

原创 Storm1.1.0集群部署

storm1.1.0安装部署

2018-01-03 14:08:01 648

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除