自定义博客皮肤

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

flume 介绍

1、flume背景:          flume是由cloudera软件公司产出的可分布式日志收集系统,后与2009年被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出,特别是flume-ng;同时flume内部的各种组件不断...

2019-01-21 23:23:31

阅读数 32

评论数 0

数据库切片

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/xingzhishen/article/details/80165293 ...

2018-10-19 15:07:14

阅读数 335

评论数 0

Linux 系统 IP设置

设置静态IP 配置网络需要的文件 ifcfg-eth0文件 路径:etc/sysconfig/network-scripts/ifcfg-eth0  TYPE=Ethernet   DEVICE=eth0   BOOTPROTO=none   ONBOOT=yes   IPADDR=10.0...

2018-10-18 16:34:01

阅读数 116

评论数 0

kylin从入门到实战:实际案例

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kangkangwanwan/article/details/78427005 ApacheKyl...

2018-10-17 17:35:01

阅读数 294

评论数 0

使用mysqlbinlog提取二进制日志

MySQL binlog日志记录了MySQL数据库从启用日志以来所有对当前数据库的变更。binlog日志属于二进制文件,我们可以从binlog提取出来生成可阅读的SQL语句来重建当前数据库以及根据需要实现时点...

2018-10-17 10:20:11

阅读数 227

评论数 0

Kudu:支持快速分析的新型Hadoop存储系统

Kudu 是 Cloudera 开源的新型列式存储系统,是 Apache Hadoop 生态圈的新成员之一( incubating ),专门为了对快速变化的数据进行快速的分析,填补了以往 Hadoop ...

2018-10-16 09:20:18

阅读数 82

评论数 0

Linux 命令之 set

set命令可以用来定制shell环境,使用选项“o”来打开或者关闭选项。例如打开选项:set -o 选项,关闭选项目:set +o 选项。 例如要打开v...

2018-10-15 17:21:42

阅读数 308

评论数 0

IntelliJ IDEA 插件的安装及使用方法

温馨提示:IntelliJ IDEA 支持非常多的插件,熟练的使用插件,能够有效提高我们的开发效率以及用户体验。 正文 首先,进入插件安装界面: Mac:IntelliJ IDEA -&a...

2018-10-15 17:12:54

阅读数 274

评论数 0

使用Hue创建Spark2的Oozie工作流

1.Oozie共享库添加Spark21.查看当前Oozie的share-lib共享库HDFS目录oozie admin -oozie http://lefincluster-rt1:11000/oozie -...

2018-10-15 16:58:49

阅读数 378

评论数 1

Hive之——怎样写exist/in子句

Hive 不支持 where 子句中的子查询, SQL 常用的 exist in 子句需要改写。这一改写相对简单。考虑以下 SQL 查询语句: SELECT a.key, a.value FROM a WHERE a.key in54 (SELECT b.key FROM B); 可以改...

2018-10-15 16:03:28

阅读数 85

评论数 0

使用mysqlbinlog提取二进制日志

MySQL binlog日志记录了MySQL数据库从启用日志以来所有对当前数据库的变更。binlog日志属于二进制文件,我们可以从binlog提取出来生成可阅读的SQL语句来重建当前数据库以及根据需要实现时点恢复或不完全恢复。本文主要描述了如果提取binlog日志,并给出相关示例。     有关...

2018-10-15 15:58:46

阅读数 42

评论数 0

在Cloudera Manager提交spark任务失败

在hue中配置workflow,提交以后,报如下错误: Log Type: stderr Log Upload Time: Wed Aug 29 10:36:23 +0800 2018 Log Len...

2018-10-15 15:54:21

阅读数 143

评论数 0

HIVE 模型

在数据仓库的建设中,一般都会围绕星型模型、雪花模型来设计表关系和表结构。 星型模型: 是一种多维的数据关系,它由一个事实表和一组维表组成,每一个维表都有一个维作为主键,所有这些维表的主键作为事实表的主键,强调的是对维度进行预处理,将多个维度集合到一个事实表,形成一个宽表。这也是我们在使用hiv...

2018-10-15 15:41:45

阅读数 844

评论数 0

HIVE数据仓库发的理解

数据仓库 英文名称为Data warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。   数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来...

2018-10-15 15:05:19

阅读数 402

评论数 0

HIVE 数据模型

体系结构: 元数据 /HQL的执行安装: 嵌入 /远程 /本地管理: CLI /web界面 /远程服务数据类型: 基本 /复杂 /时间数据模型: 数据存储 /内部表 /分区表 /外部表 /桶表 /视图 WEB管理工具:http://tdxy-bigdata-04:8889/notebook/ed...

2018-10-15 11:35:05

阅读数 107

评论数 0

HIVE 的数据类型

数据类型       hive支持两类数据类型:一类叫原子数据类型,一类叫复杂数据类型。       原子数据类型包括:数值型、布尔型、浮点型、字符窜类型 Hive数据类型 概观 数字类型 日期/时间类型 字符串类型 杂项类型 复杂类型 列类型 积分类型(TIN...

2018-10-15 10:32:30

阅读数 43

评论数 0

Spark编程模型

本章知识点概括 Apache Spark简介 Spark的四种运行模式 Spark基于Standlone的运行流程 Spark基于YARN的运行流程 Apache Spark是什么? Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型,而且高效...

2018-10-12 14:40:58

阅读数 390

评论数 0

SPARK (计算引擎)介绍

SPARK              Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎,Spark是加州大学伯克利分校的AMP实验室开源的类hadoop MapReducec的通用并行框架,Spark具有 Hadoop MapReduce具有的优点,但不同于MapRedu...

2018-10-12 11:45:46

阅读数 224

评论数 0

数据仓库 HIVE 介绍

HIVE        hive是基于hadoop的一个数据仓库工具,可以将结构化的数据映射成一张数据表,并提供简单的sql查询功能,可以将sql语句转化为MapReduce任务进行运行,优点是学习成本低,可以通过类sql语句快速简单的实现MapReduce的统计,不必专门开发MapReduce...

2018-10-11 14:07:01

阅读数 28

评论数 0

手动安装MYSQL

1、下载编译包: wget https://dev.mysql.com/get/Downloads/MySQL-5.6/mysql-5.6.35-linux-glibc2.5-x86_64.tar.gz tar xvf mysql-5.6.35-linux-glibc2.5-x86_64.ta...

2018-10-10 15:57:47

阅读数 106

评论数 0

提示
确定要删除当前文章?
取消 删除