2018年12月_程序员学习圈

原创 Sqoop 导入导出详解(mysql-hbase)

之前我们已经学习过如何使用Sqoop在Hadoop集群和关系型数据库中进行数据的导入导出工作，接下来我们学习一下利用Sqoop在HBase和RDBMS中进行数据的转储。说明：只支持关系型数据库往HBase中导数据，反之不支持）相关参数：参数描述 --column-family <family&gt...

2018-12-29 18:14:26 586

原创 Druid 优秀文章推荐

1.Druid 在快手的应用： https://download.csdn.net/download/luomingkui1109/10885872

2018-12-29 16:32:18 400

原创 Druid 在小米公司部分技术实践

小米公司正式成立于2010 年4 月，是一家专注于高端智能手机、互联网电视以及智能家居生态链建设的创新型科技企业。 “让每个人都能享受科技的乐趣”是小米公司的愿景。小米公司应用互联网模式开发产品，用工匠精神做产品，用互联网模式节省了中间环节，致力于让全球每个人都能享用来自中国的优质科技产品。 Druid 在数据分析层帮助实时收集海量的事件数据，快速进行商业分析，在多...

2018-12-29 15:51:30 397

原创 Druid 监控和安全

1.Druid 监控 2.Druid 告警 3.Druid 安全

2018-12-29 15:33:15 794

原创 Druid 核心源代码探析

1.Druid 简单说明：（1）代码版本：0.9.1（2）项目地址：https://github.com/druid-io/druid.git（3）代码整体结构api 核心接口层，整个代码库的最底层common 公共方法，依赖apiexamples 实例...

2018-12-29 15:20:35 544

原创大数据分析之可视化平台superset简介

1.Superset简介 • Superset是Airbnb开源的数据挖掘平台 • Github地址：https://github.com/airbnb/superset • 官网地址：http://airbnb.io/projects/superset/ • Superset之前叫做Caravel，还叫做过Panaramix。到今天为止，Superset在...

2018-12-29 12:07:07 2740

原创 Druid 数据摄入与查询示例

1.前置条件：1.1 环境准备： Java 8 Linux， Mac OS X或其他类Unix操作系统（不支持Windows） 8G的RAM 2个vCPU 1.2 下载并解压 druid 下载地址：https://www.apache.org/dyn/closer.cgi?path=/incubator/druid/0.13.0-inc...

2018-12-26 14:31:32 2860

原创 Druid 数据查询

1.Druid 查询概述上一节完成数据导入后，接下来讲讲Druid如何查询及统计分析导入的数据。 Druid的查询是使用REST风格的HTTP请求查询服务节点（Broker、Historical、Realtime），这些服务节点暴露REST查询接口，客户端发送Json对象请求查询接口。一般情况下，查询服务接口发布在Broker节点，基于Linux 的POST请求查询如下所示：...

2018-12-26 14:28:28 1570

原创 Druid 流式与批量数据摄取的结合

我们都知道, Druid在摄取时需要设置一个时间窗口, 在时间窗口之外的数据,将会丢弃。我们如何将这部分丢弃的数据重新摄取进Druid系统中,以提高数据的准确性?通常的做法是把数据保存起来, 等待重新摄取。目前比较流行的处理方法是Lambda架构。 1.Lambda架构 Lambda是实时处理框架Storm 的作者Nathan Marz 提出的用于同时处理离线和实时数据...

2018-12-23 16:35:19 1020

原创 Druid 数据摄入

1. 概述 Druid的数据摄入主要包括两大类，流式数据摄入和静态数据摄入1.1 对于流式数据的摄入，Druid提供了两种方式，分别是push和pull，采用pull方式摄取数据，需要启动一个实时节点，通过不同的firehose摄入不同的流式数据，firehose可以被认为Druid接入不同数据源的适配器。例如从kafka摄入数据，就用kafkaFirehose,从Rab...

2018-12-23 13:28:19 976

原创 Druid 安装部署(单机版)

1.安装包下载从https://imply.io/get-started 下载最新版本安装包2.安装部署 Imply提供了一套完整的部署方式，包括依赖库Druid，图形化的数据展示页面，SQL查询组件等，下面将基于Imply套件进行说明如何部署。2.1 将imply-2.7.10.tar.gz上传到hadoop102的/opt/software目录下，并解...

2018-12-23 13:05:16 1923

原创 Druid 架构详解

1. 前言 Druid 的目标是提供一个能够在大数据集上做实时数据摄入与查询的平台，然而对于大多数系统而言，提供数据的快速摄入与提供快速查询是难以同时实现的两个指标。例如对于普通的RDBMS,如果想要获取更快的查询速度，就会因为创建索引而牺牲掉写入的速度，如果想要更快的写入速度，则索引的创建就会受到限制。而Druid却可以完美的对两者进行结合，本文将对Druid如何实现这种结合做一个简单...

2018-12-22 23:13:57 1906

原创 Druid 基本介绍

1.概述随着互联网快速发展，数据量增长快，达到TB、PB，以交通车流量为例，如湖南省每月的车辆流量至少达到4亿，这个数据量远不止如此。数据量如此大，如何满足后期分析，传统面向OLTP型数据库（ORACLE、MYSQL等）无法要求，渐渐开始转向OLAP，如GreenPlum等，虽然很多OLAP数据库吸收分布式计算思想，数据达到20亿以上后，进行Count、聚合等操作性能仍然达不到客户实时...

2018-12-21 19:57:47 5031 1

原创时序数据库(TSDB:time series databases)

1.概述时序列数据库（Time series database）：用来存储时序列（time-series）数据并以时间（点或区间）建立索引的软件。一般时序列数据都具备数据结构简单：某一度量指标在某一时间点只会有一个值，没有复杂的结构（嵌套、层次等）和关系（关联、主外键等）。数据量大：由于时序列数据由所监控的大量数据源来产生、收集和发送...

2018-12-21 18:28:03 3786

原创数据库连接池 Druid详解

1. Druid是什么？ Druid首先是一个数据库连接池。Druid是目前最好的数据库连接池，在功能、性能、扩展性方面，都超过其他数据库连接池，包括DBCP、C3P0、BoneCP、Proxool、JBoss DataSource。 Druid能够提供强大的监控和扩展功能。 2. 在哪里下载druid 正式版本下载： maven中央仓库: http...

2018-12-21 10:53:15 922

原创 Druid 与阿里开源项目Druid

Druid 单词来源于西方古罗马的神话人物，中文常常翻译成德鲁伊。本问介绍的Druid 是一个分布式的支持实时分析的数据存储系统（Data Store），美国广告技术公司MetaMarkets 于2011 年创建了Druid 项目，并且于2012 年晚期开源了Druid 项目。Druid 设计之初的想法就是为分析而生，它在处理数据的规模、数据处理的实时性方面，比传统的OLAP ...

2018-12-20 20:11:48 3478 1

原创 HBase相对Hive查询速度快的对比

首先Hive的底层首先是MR,是属于批处理处理时间相对较长，不属于实时读写。在其架构上HBase和Hive有很大的区别. 架构介绍： Hive架构（1）用户接口主要有三个：CLI，Client 和 WUI。其中最常用的是CLI，Cli启动的时候，会同时启动一个Hive副本。Client是Hive的客户端，用户连接至HiveServer。在启动 Clien...

2018-12-20 19:41:05 1365

原创 Hive 和 HBase 的区别

1. 两者分别是什么？ Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言，这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能，但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBas...

2018-12-20 18:42:21 214 1

原创 HBase 跨集群迁移数据-Snapshot 实现

HBase数据迁移方案有很多种，但今天我们来通过Snapshot方式来实现HBase的数据迁移(即将A集群HBase的数据迁移到B集群)，废话不多说，直接进去主题吧：参考文献：https://www.cnblogs.com/ballwql/p/hbase_data_transfer.html https://www.cnblogs...

2018-12-20 17:18:37 3285

原创 Transaction 那点事儿

Transaction 也就是所谓的事务了，通俗理解就是一件事情。从小，父母就教育我们，做事情要有始有终，不能半途而废。事务也是这样，不能做一般就不做了，要么做完，要么就不做。也就是说，事务必须是一个不可分割的整体，就像我们在化学课里学到的原子，原子是构成物质的最小单位。于是，人们就归纳出事务的第一个特性：原子性（Atomicity）。我靠，一点都不神秘嘛。特别是在数据库领域...

2018-12-18 10:20:51 235

原创使用Hive读写ElasticSearch中的数据

1.通过sqoop使mysql和hive的数据进行同步： https://download.csdn.net/download/luomingkui1109/106676582.数据的全量与增量 https://blog.csdn.net/wujiandao/article/details/80413661...

2018-12-17 16:52:58 314

原创 Hive下查看表占用空间大小的方法

1.在mysql中，ifnull函数的用法，其表达式如下： IFNULL(expr1,expr2) 如果 expr1 不是 NULL，IFNULL() 返回 expr1，否则它返回 expr2。IFNULL()返回一个数字或字符串值，取决于它被使用的上下文环境。举个应用场景，比如某一个字段定义为int类型，其默认值为0，但是在sql查询过程中，有可能出现为null,...

2018-12-17 16:51:41 4865 1

原创 Scala 定界延续

众所周知，索引对于数据库性能的影响至关重要，但是索引为什么可以提高查询效率，以及索引的种类及其特点可能不是很清楚,本文将对常用的索引类型以及特点做一个简单的介绍1.为什么要使用索引首先来说一下索引为什么可以提高查询效率。普通查询的过程往往是通过整表的扫描来获得期望的结果，如果表的纪录非常的多，查询的效率肯定会很慢。而索引则会通过最大程度的降低扫描纪录的条数来提高效率，不同...

2018-12-17 16:21:13 308

原创 Scala 解析

Mysql中字符串处理的几种处理方法concat、concat_ws、group_concat以下详情：1.MySQL中concat函数使用方法：CONCAT(str1,str2,…)返回结果为连接参数产生的字符串。如有任何一个参数为NULL，则返回值为NULL。注意：如果所有参数均为非二进制字符串，则结果为非二进制字符串。如果自变量中含有任...

2018-12-17 16:10:58 501

原创 Scala简要：高级函数和高级类型

1.查询表中最早时间的一条记录（1）错误的：select a.*,MIN(enter_time) from g2monitor_range_event a; 解析：因为这样的话只是查询了数据库中的第一条记录，有查询了最早的时间，这是没有必然联系的。（2）正确的：select * from g2monitor_range_event where enter_time in(sele...

2018-12-17 16:08:11 8303 1

程序员学习圈