eric_lee-CSDN博客

原创获取时间区间的每天日期

#!/bin/bashdate1="$1"date2="$2"echo "date1: $date1"echo "date2: $date2"tempdate=`date -d "-0 day $date1" +%Y%m%d`enddate=`date -d "-0 day $date2" +%F`tempdateSec=`date -d "-0 day $da

2018-10-26 18:17:03 857

转载学习博客

##大数据之实时计算Spark Streaming 源码解析系列https://github.com/lw-lin/CoolplaySpark/blob/master/Spark Streaming 源码解析系列/readme.mdSpark Streaming 实现思路与模块概述https://github.com/lw-lin/CoolplaySpark/blob/master/Spa...

2018-10-26 18:01:40 684

转载 druid的查询接口

核心 druid 查询接口的使用druid的查询接口是HTTP REST 风格的查询方式，使用HTTP REST 风格查询(Broker,Historical,或者Realtime)节点的数据,查询参数为JSON格式，每个节点类型都会暴露相同的REST查询接口curl -X POST '<queryable_host>:<port>/druid/v2/?pretty' -H...

2018-04-24 18:43:23 2966

输入mvn命令 3.1 输入mvn install:install-file -Dfile=C:\Users\sinosoft\Desktop\lib\spring-cloud-sleuth-zipkin-1.2.0.RC1.jar -DgroupId=org.springframework.cloud -DartifactId=spring-cloud-sleuth-zipkin -Dve...

2018-04-18 11:48:40 223

转载 Druid单机的安装和测试

1、环境信息 2、安装zookeeper 3、安装druid 4、启动druid 5、验证druid 6、遇到的吭1、环境信息 Centos6.5 32GB 8C Zookeeper 3.4.5 Druid 0.9.22、安装zookeepertar -xzf zookeeper-3.4.6.tar.gzcd zookeeper-3.4.6cp conf/zoo_sample.cfg conf...

2018-04-17 19:37:07 960

转载 apache hadoop2.7 安装

总体思路，准备主从服务器，配置主服务器可以无密码SSH登录从服务器，解压安装JDK，解压安装Hadoop，配置hdfs、mapreduce等主从关系。1、环境，3台CentOS7，64位，Hadoop2.7需要64位Linux，CentOS7 Minimal的ISO文件只有600M，操作系统十几分钟就可以安装完成，Master 192.168.0.182 Slave1 192.168.0.183 ...

2018-03-13 19:39:46 394

转载 Kafka-manager部署

一、概念概念百度了一下，可以根据相关资料进行理解。1.1 Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。BrokerKafka集群包含一个或多个服务器，这种服务器被称为broker。 Topic每条发布到Kafka集群的消息都有一个类别，这个类别被称为Topic。（物理上不同Topic的消息分开存储，逻辑上一个Topic的消息虽然保存于一个...

2018-03-01 16:32:10 293

原创集合元素操作

集合元素操作col :+ ele 将元素添加到集合尾部 Seqele +: col 将元素添加到集合头部 Seqcol + ele 在集合尾部添加元素 Set、Mapcol + (ele1, ele2) 将其他集合添加到集合的尾部 Set、Mapcol - ele 将元素从集合中删除 Set、Map、ArrayBuffercol - (ele1, ele2) 将子集合从...

2018-02-11 07:51:05 311

转载启动YARN时，ResourceManager 和 NodeManager报错 Error found before invoking supervisord dictionary update s

在通过CM启动Yarn服务时候，不同的版本可能都会遇到同样的一个问题，如下图所示： Error found before invoking supervisord: dictionary update sequence element #89 has length 1; 2 is required之前在cm5.5、cm5.7以及现在的cm5.11都出现过这样的问题。在cm5.5中，修改文件 /op...

2018-02-08 16:46:52 409

转载 python脚本用sqoop把mysql数据导入hive数据仓库中

#! /usr/bin/env python # coding:utf-8 # -------------------------------- # Created by coco on 16/2/23 # --------------------------------- # Comment: 主要功能说明 :初始化业务数据库 import os

2018-02-07 16:50:55 938

转载 sqoop mysql数据导入Hive中

//sqoop导入数据测试## by coco## 2014-11-211. 下载sqoop，本测试安装的hadoop-2.2.0。所以下载的sqoop为：sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz下载地址为：http://mirrors.cnnic.cn/apache/sqoop/1

2018-02-07 15:31:36 352

转载 Hadoop_FileInputFormat分片

Hadoop_FileInputFormat分片Hadoop学习笔记总结01. InputFormat和OutFormat1. 整个MapReduce组件InputFormat类和OutFormat类都是抽象类。可以实现文件系统的读写，数据库的读写，服务器端的读写。这样的设计，具有高内聚、低耦合的特点。2. 提交任务时，获取s

2018-02-02 14:15:07 201

转载 hive udf

set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; set hive.exec.max.dynamic.partitions.pernode=1000;创建真实表：create external table bi_rg.fact_call_lo

2018-02-01 11:35:53 150

转载搭建Spark源码研读和代码调试的开发环境

Table of Contents源码获取与编译从Github上获取Spark源码编译Spark项目源码导入与代码运行导入源码到Intellij IDEA 16运行实例代码1. 配置运行参数2. 添加缺失的flume sink源代码3. 添加运行依赖的jars4. 成功运行实例代码单步调试源代码工欲善其事，必先利其器，第一篇笔记介绍如何搭建源码研

2018-01-30 11:15:19 200

转载 Hive命令行常用操作（数据库操作，表操作）

数据库操作查看所有的数据库hive> show databases ;使用数据库defaulthive> use default;查看数据库信息hive > describe database default; OK db_name comment location owner_name owner_type parame

2018-01-25 10:14:43 3497

原创 kylin建模指南

Apache Kylin的主要特点包括支持SQL接口、支持超大数据集、秒级响应、可伸缩性、高吞吐率、BI工具集成等。Apache Kylin的特色在于，在上述的底层技术之外，另辟蹊径地使用了独特的Cube预计算技术。预计算事先将数据按维度组合进行了聚合，将结果保存为物化视图。经过聚合，物化视图的规模就只由维度的基数来决定，而不再随着数据量的增长呈线性增长。在

2018-01-24 18:44:16 2817

原创 kettle小例子

crontab -l0 11 * * * /home/xxy_hjlj/data-integration/kettle_code/shell/kettle_job.sh[xxy_hjlj@ipcweb2 shell]$ vi kettle_job.sh /home/xxy_hjlj/data-integration/kettle_code/shell/fact_call_cou

2018-01-24 18:21:21 262

原创 datax

python bin/datax.py -p "-Dstarttime='2018-01-15 00:00:00' -Dendtime='2018-01-15 23:59:59' -Ddays='2018-01-15' " ../job/writemysql1.json{ "job": { "setting": {

2018-01-24 18:08:04 1104 1

转载 kylin实战总结

Apache Kylin****项目实践目前基于kylin的数据分析平台已经在业务中开始测试以及使用，并且在用户管理和权限操作方面做了的二次开发改造，以实现project和cube的安全管理。下图是cube的查询响应图表，cube 大小为157GB，包括一个事实表，14个维度和4个度量：在项目实践过程中也遇到问题：Hadoop任务内存资源不够，cube计算失败。

2018-01-22 16:00:45 779

转载 Hbase原理、基本概念、基本架构

概述HBase是一个构建在HDFS上的分布式列存储系统；HBase是基于Google BigTable模型开发的，典型的key/value系统；HBase是Apache Hadoop生态系统中的重要一员，主要用于海量结构化数据存储；从逻辑上讲，HBase将数据按照表、行和列进行存储。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服

2018-01-20 21:59:52 709

转载开源数据可视化工具（For Apache Kylin）使用说明

http://lxw1234.com/archives/2016/06/691.htmApache Kylin，很好的解决了海量数据OLAP的底层存储与分析引擎，但还缺一个数据可视化工具，可以使用户非常方便的通过图形化分析探索海量数据，而不用写SQL。于是我们发现了Caravel。原生的Caravel并不支持Kylin，也不支持多表关联，经过好友Rocky和我的修改和调试，使得Caravel支持K

2018-01-18 17:15:10 579

转载 KYLIN 例行调度自动BULID

KYLIN提供RESTFUL 接口，通过请求&crontab 可实现例行调度参考url:http://kylin.apache.org/docs15/howto/howto_use_restapi.html#get-job-status实现步骤：1、shell脚本加入下面代码实现BULID请求java -jar KylinInterface.jar CUBE_NAME 20160806 20160

2018-01-18 13:42:39 401

转载 Apache Kylin Cube 的存储

简单的说Cuboid的维度会映射为HBase的Rowkey，Cuboid的指标会映射为HBase的Value。　　　　　　　　　　　　　　　　　　　　　　Cube映射成HBase存储　　如上图原始表所示：Hive表有两个维度列year和city，有一个指标列price。如上图预聚合表所示：我们具体要计算的是year和city这两个维度所有维度组合（即

2018-01-17 16:32:51 983

转载 Apache Kylin Buid Cube详细流程2

1、 Cube的物理模型　　　　　　　　　　　　　　　　　　　　　　　　Cube物理模型　　如上图所示，一个常用的3维立方体，包含：时间、地点、产品。假如data cell 中存放的是产量，则我们可以根据时间、地点、产品来确定产量，同时也可以根据时间、地点来确定所有产品的总产量等。　　Apache Kylin就将所有（时间、地点、产品）的各种组合实现算出来，data cel

2018-01-17 16:18:19 252

转载 Apache Kylin Buid Cube详细流程

Build Cube流程主要分为四个阶段：根据用户的cube信息计算出多个cuboid文件根据cuboid文件生成htable更新cube信息回收临时文件1.流程一：作业整体描述把构建Cube的来源表总行数写到指定的HDFS文件中2.流程二：生成中间临时数据这一步的操作是根据Cube设计中的定义生成原始数据，这里会新创建一个Hive外部表，然后再

2018-01-17 15:59:23 505

转载 Apache Kylin Cube构建算法

逐层算法在介绍快速Cube算法之前，我们先简单回顾一下现有的算法，也称之为“逐层算法”（By Layer Cubing）。我们知道，一个N维的完全Cube，是由：1个N维子立方体（Cuboid）， N个（N-1）维Cuboid, N*(N-1)/2个(N-2)维Cuboid …, N个1维Cuboid, 1个0维Cuboid，总共2^N个子立方体组成的；在“逐层算法”中，按维度数逐

2018-01-17 15:57:15 168

转载 Apache kylin 原理和架构

Apache Kylin™是一个开源的分布式分析引擎，提供Hadoop之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。1.基本原理kylin的核心思想是预计算，理论基础是：以空间换时间。即多多维分析可能用到的度量进行预计算，将计算好的结果保存成Cube并存储到hbase中，供查询时直

2018-01-17 15:45:18 364

转载 Apache Kylin Cube优化

Kylin 构建Cube时优化方法如下：1. Hierarchy(层级) Dimensions优化在Fact table(事实表)中的维度满足层级关系时定义这几个维度为Hierarchy。一些列具有层次关系的Dimension组成一个Hierarchy，比如年，月，日组成了一个Hierarchy。查询时指定group by year ; group by year ,

2018-01-17 11:52:31 153

转载 Kylin 安装以及spark cube 的创建

一．准备下载kylin安装包 http://www.apache.org/dyn/closer.cgi/kylin/apache-kylin-2.2.0/apache-kylin-2.2.0-bin-hbase1x.tar.gz二．环境 1. Hadoop: 2.7+ Hive: 0.13 - 1.2.1+ HBase: 0.98 - 0.99, 1.1+ J

2018-01-16 17:24:07 285

转载一文读懂Apache Kylin

感谢分享。http://www.jianshu.com/p/abd5e90ab051?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation“麒麟出没，必有祥瑞。”Kylin思维导图前言随着移动互联网、物联网等技术的发展，近些年人类所积累的数据正在呈爆炸

2018-01-16 11:31:13 6806

转载 kylin2.1.0+cdh5.10.1+安装部署+官方测试例子详细教程

CDH环境下kylin的安装教程 1.软件版本介绍: cdh5.10.1Kylin: 2.1.0 2.环境检查环境中需要启动的角色: Hive Metastore Serveryarn的JobHistory Server3.正式安装3.1 kylin2.1.0下载软件http://mir

2018-01-16 11:19:01 401

转载 Druid部署总结

druid部署

2018-01-12 16:35:19 3684

转载 caravel连接druid

druid caravel

2018-01-12 10:19:30 193

转载 caravel的安装

druid carvel

2018-01-11 17:53:35 343

转载 Druid单机测试与数据加载方法

http://druid.io/docs/0.10.1/tutorials/quickstart.html（1）Getting started下载安装Druid:curl -O http://static.druid.io/artifacts/releases/druid-0.10.1-bin.tar.gztar -xzf druid-0.10.1-bin

2018-01-11 16:51:52 561

转载 Druid.io 部署&使用文档

1.集群模式下部署Prerequisites : Java 7 or higher & Zookeeper & mysql下载Druid.io :curl -O http://static.druid.io/artifacts/releases/druid-0.9.1.1-bin.tar.gztar -xzf druid-0.9.1.1-bin.tar.gzcd d

2018-01-11 14:46:45 1941

转载大数据常见错误解决方案（转载）

1、用./bin/spark-shell启动spark时遇到异常：java.net.BindException: Can't assign requested address: Service 'sparkDriver' failed after 16 retries!解决方法：add export SPARK_LOCAL_IP="127.0.0.1" to spark-env.sh2、j

2018-01-10 09:42:38 3403

转载 CDH 中组件升级问题(hive为例）

下面是一个例子，仅供参考：基于CM搭建的CDH集群之hive组件升级过程（hive0.13.1升级到hive-1.2.1且确保纳入CM管理）1、在hive0.13.1版本下创建lib121目录[Bash shell] 纯文本查看复制代码?1cd/opt/cloudera/parcels/CDH/lib/h

2018-01-08 14:18:50 4337

转载 Linux安装Sqoop(CentOS7+Sqoop1.4.6+Hadoop2.8.0+Hive2.1.1)

1下载Sqoop2上载和解压缩3一系列配置 3.1配置环境变量 3.2sqoop配置文件修改 3.2.1 sqoop-env.sh文件 3.2.1.1新建 3.

2018-01-08 14:00:06 339

转载基于Spark 2.0.0搭建Hive on Spark环境

一、运行环境CentOS 7.2Hadoop 2.7Hive 2.2.0Spark 2.0.0JDK 1.7Scala 2.11.8Maven 3.3.9说明：Scala 2.11.8以后的版本只支持JDK1.8，如果环境原本是使用JDK1.7的就不需要安装最新版本。二、开始配置前的排坑很多人都会参考Hiv

2018-01-08 13:56:26 607

空空如也

空空如也