自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程序员学习圈

行胜于言、质胜于华

  • 博客(25)
  • 收藏
  • 关注

原创 Sqoop 导入导出详解(mysql-hbase)

      之前我们已经学习过如何使用Sqoop在Hadoop集群和关系型数据库中进行数据的导入导出工作,接下来我们学习一下利用Sqoop在HBase和RDBMS中进行数据的转储。    说明:只支持关系型数据库往HBase中导数据,反之不支持)    相关参数: 参数 描述 --column-family <family&gt...

2018-12-29 18:14:26 586

原创 Druid 优秀文章推荐

1.Druid 在快手的应用:   https://download.csdn.net/download/luomingkui1109/10885872

2018-12-29 16:32:18 400

原创 Druid 在小米公司部分技术实践

    小米公司正式成立于2010 年4 月,是一家专注于高端智能手机、互联网电视以及智能家居生态链建设的创新型科技企业。    “让每个人都能享受科技的乐趣”是小米公司的愿景。小米公司应用互联网模式开发产品,用工匠精神做产品,用互联网模式节省了中间环节,致力于让全球每个人都能享用来自中国的优质科技产品。    Druid 在数据分析层帮助实时收集海量的事件数据,快速进行商业分析,在多...

2018-12-29 15:51:30 397

原创 Druid 监控和安全

1.Druid 监控 2.Druid 告警 3.Druid 安全

2018-12-29 15:33:15 794

原创 Druid 核心源代码探析

1.Druid 简单说明:(1)代码版本:0.9.1(2)项目地址:https://github.com/druid-io/druid.git(3)代码整体结构api                       核心接口层,整个代码库的最底层common                    公共方法,依赖apiexamples                  实例...

2018-12-29 15:20:35 544

原创 大数据分析之可视化平台superset简介

1.Superset简介    • Superset是Airbnb开源的数据挖掘平台    • Github地址:https://github.com/airbnb/superset    • 官网地址:http://airbnb.io/projects/superset/    • Superset之前叫做Caravel,还叫做过Panaramix。到今天为止,Superset在...

2018-12-29 12:07:07 2740

原创 Druid 数据摄入与查询示例

1.前置条件:1.1 环境准备:    Java 8 Linux,    Mac OS X或其他类Unix操作系统(不支持Windows)    8G的RAM    2个vCPU 1.2 下载并解压 druid    下载地址:https://www.apache.org/dyn/closer.cgi?path=/incubator/druid/0.13.0-inc...

2018-12-26 14:31:32 2860

原创 Druid 数据查询

1.Druid 查询概述    上一节完成数据导入后,接下来讲讲Druid如何查询及统计分析导入的数据。    Druid的查询是使用REST风格的HTTP请求查询服务节点(Broker、Historical、Realtime),这些服务节点暴露REST查询接口,客户端发送Json对象请求查询接口。一般情况下,查询服务接口发布在Broker节点,基于Linux 的POST请求查询如下所示:...

2018-12-26 14:28:28 1570

原创 Druid 流式与批量数据摄取的结合

    我们都知道, Druid在摄取时需要设置一个时间窗口, 在时间窗口之外的数据,将会丢弃。我们如何将这部分丢弃的数据重新摄取进Druid系统中,以提高数据的准确性?通常的做法是把数据保存起来, 等待重新摄取。 目前比较流行的处理方法是Lambda架构。 1.Lambda架构    Lambda是实时处理框架Storm 的作者Nathan Marz 提出的用于同时处理离线和实时数据...

2018-12-23 16:35:19 1020

原创 Druid 数据摄入

1. 概述    Druid的数据摄入主要包括两大类,流式数据摄入和静态数据摄入1.1 对于流式数据的摄入,Druid提供了两种方式,分别是push和pull,    采用pull方式摄取数据,需要启动一个实时节点,通过不同的firehose摄入不同的流式数据,firehose可以被认为Druid接入不同数据源的适配器。例如从kafka摄入数据,就用kafkaFirehose,从Rab...

2018-12-23 13:28:19 976

原创 Druid 安装部署(单机版)

1.安装包下载从https://imply.io/get-started 下载最新版本安装包2.安装部署 Imply提供了一套完整的部署方式,包括依赖库Druid,图形化的数据展示页面,SQL查询组件等,下面将基于Imply套件进行说明如何部署。2.1 将imply-2.7.10.tar.gz上传到hadoop102的/opt/software目录下,并解...

2018-12-23 13:05:16 1923

原创 Druid 架构详解

1. 前言    Druid 的目标是提供一个能够在大数据集上做实时数据摄入与查询的平台,然而对于大多数系统而言,提供数据的快速摄入与提供快速查询是难以同时实现的两个指标。例如对于普通的RDBMS,如果想要获取更快的查询速度,就会因为创建索引而牺牲掉写入的速度,如果想要更快的写入速度,则索引的创建就会受到限制。而Druid却可以完美的对两者进行结合,本文将对Druid如何实现这种结合做一个简单...

2018-12-22 23:13:57 1906

原创 Druid 基本介绍

1.概述 随着互联网快速发展,数据量增长快,达到TB、PB,以交通车流量为例,如湖南省每月的车辆流量至少达到4亿,这个数据量远不止如此。数据量如此大,如何满足后期分析,传统面向OLTP型数据库(ORACLE、MYSQL等)无法要求,渐渐开始转向OLAP,如GreenPlum等,虽然很多OLAP数据库吸收分布式计算思想,数据达到20亿以上后,进行Count、聚合等操作性能仍然达不到客户实时...

2018-12-21 19:57:47 5031 1

原创 时序数据库(TSDB:time series databases)

1.概述        时序列数据库(Time series database):用来存储时序列(time-series)数据并以时间(点或区间)建立索引的软件。一般时序列数据都具备        数据结构简单:某一度量指标在某一时间点只会有一个值,没有复杂的结构(嵌套、层次等)和关系(关联、主外键等)。        数据量大:由于时序列数据由所监控的大量数据源来产生、收集和发送...

2018-12-21 18:28:03 3786

原创 数据库连接池 Druid详解

1. Druid是什么?    Druid首先是一个数据库连接池。Druid是目前最好的数据库连接池,在功能、性能、扩展性方面,都超过其他数据库连接池,包括DBCP、C3P0、BoneCP、Proxool、JBoss DataSource。    Druid能够提供强大的监控和扩展功能。 2. 在哪里下载druid    正式版本下载:    maven中央仓库: http...

2018-12-21 10:53:15 922

原创 Druid 与 阿里开源项目Druid

    Druid 单词来源于西方古罗马的神话人物,中文常常翻译成德鲁伊。    本问介绍的Druid 是一个分布式的支持实时分析的数据存储系统(Data Store),美国广告技术公司MetaMarkets 于2011 年创建了Druid 项目,并且于2012 年晚期开源了Druid 项目。Druid 设计之初的想法就是为分析而生,它在处理数据的规模、数据处理的实时性方面,比传统的OLAP ...

2018-12-20 20:11:48 3478 1

原创 HBase相对Hive查询速度快的对比

首先Hive的底层首先是MR,是属于批处理处理时间相对较长,不属于实时读写。在其架构上HBase和Hive有很大的区别.  架构介绍: Hive架构     (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至HiveServer。在启动 Clien...

2018-12-20 19:41:05 1365

原创 Hive 和 HBase 的区别

1. 两者分别是什么?       Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。     Apache HBas...

2018-12-20 18:42:21 214 1

原创 HBase 跨集群迁移数据-Snapshot 实现

   HBase数据迁移方案有很多种,但今天我们来通过Snapshot方式来实现HBase的数据迁移(即将A集群HBase的数据迁移到B集群),废话不多说,直接进去主题吧:     参考文献:https://www.cnblogs.com/ballwql/p/hbase_data_transfer.html                     https://www.cnblogs...

2018-12-20 17:18:37 3285

原创 Transaction 那点事儿

    Transaction 也就是所谓的事务了,通俗理解就是一件事情。从小,父母就教育我们,做事情要有始有终,不能半途而废。 事务也是这样,不能做一般就不做了,要么做完,要么就不做。也就是说,事务必须是一个不可分割的整体,就像我们在化学课里学到的原子,原子是构成物质的最小单位。于是,人们就归纳出事务的第一个特性:原子性(Atomicity)。我靠,一点都不神秘嘛。    特别是在数据库领域...

2018-12-18 10:20:51 235

原创 使用Hive读写ElasticSearch中的数据

1.通过sqoop使mysql和hive的数据进行同步: https://download.csdn.net/download/luomingkui1109/106676582.数据的全量与增量 https://blog.csdn.net/wujiandao/article/details/80413661...

2018-12-17 16:52:58 314

原创 Hive下查看表占用空间大小的方法

1.在mysql中,ifnull函数的用法,其表达式如下: IFNULL(expr1,expr2) 如果 expr1 不是 NULL,IFNULL() 返回 expr1,否则它返回 expr2。IFNULL()返回一个数字或字符串值,取决于它被使用的上下文环境。 举个应用场景,比如某一个字段定义为int类型,其默认值为0,但是在sql查询过程中,有可能出现为null,...

2018-12-17 16:51:41 4865 1

原创 Scala 定界延续

众所周知,索引对于数据库性能的影响至关重要,但是索引为什么可以提高查询效率,以及索引的种类及其特点可能不是很清楚,本文将对常用的索引类型以及特点做一个简单的介绍1.为什么要使用索引 首先来说一下索引为什么可以提高查询效率。普通查询的过程往往是通过整表的扫描来获得期望的结果,如果表的纪录非常的多,查询的效率肯定会很慢。而索引则会通过最大程度的降低扫描纪录的条数来提高效率,不同...

2018-12-17 16:21:13 308

原创 Scala 解析

Mysql中字符串处理的几种处理方法concat、concat_ws、group_concat以下详情:1.MySQL中concat函数使用方法:CONCAT(str1,str2,…)返回结果为连接参数产生的字符串。如有任何一个参数为NULL,则返回值为NULL。注意:如果所有参数均为非二进制字符串,则结果为非二进制字符串。如果自变量中含有任...

2018-12-17 16:10:58 501

原创 Scala简要:高级函数和高级类型

1.查询表中最早时间的一条记录(1)错误的:select a.*,MIN(enter_time) from g2monitor_range_event a; 解析:因为这样的话只是查询了数据库中的第一条记录,有查询了最早的时间,这是没有必然联系的。(2)正确的:select * from g2monitor_range_event where enter_time in(sele...

2018-12-17 16:08:11 8303 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除