- 博客(25)
- 收藏
- 关注
原创 Sqoop 导入导出详解(mysql-hbase)
之前我们已经学习过如何使用Sqoop在Hadoop集群和关系型数据库中进行数据的导入导出工作,接下来我们学习一下利用Sqoop在HBase和RDBMS中进行数据的转储。 说明:只支持关系型数据库往HBase中导数据,反之不支持) 相关参数: 参数 描述 --column-family <family>...
2018-12-29 18:14:26 586
原创 Druid 优秀文章推荐
1.Druid 在快手的应用: https://download.csdn.net/download/luomingkui1109/10885872
2018-12-29 16:32:18 400
原创 Druid 在小米公司部分技术实践
小米公司正式成立于2010 年4 月,是一家专注于高端智能手机、互联网电视以及智能家居生态链建设的创新型科技企业。 “让每个人都能享受科技的乐趣”是小米公司的愿景。小米公司应用互联网模式开发产品,用工匠精神做产品,用互联网模式节省了中间环节,致力于让全球每个人都能享用来自中国的优质科技产品。 Druid 在数据分析层帮助实时收集海量的事件数据,快速进行商业分析,在多...
2018-12-29 15:51:30 397
原创 Druid 核心源代码探析
1.Druid 简单说明:(1)代码版本:0.9.1(2)项目地址:https://github.com/druid-io/druid.git(3)代码整体结构api 核心接口层,整个代码库的最底层common 公共方法,依赖apiexamples 实例...
2018-12-29 15:20:35 544
原创 大数据分析之可视化平台superset简介
1.Superset简介 • Superset是Airbnb开源的数据挖掘平台 • Github地址:https://github.com/airbnb/superset • 官网地址:http://airbnb.io/projects/superset/ • Superset之前叫做Caravel,还叫做过Panaramix。到今天为止,Superset在...
2018-12-29 12:07:07 2740
原创 Druid 数据摄入与查询示例
1.前置条件:1.1 环境准备: Java 8 Linux, Mac OS X或其他类Unix操作系统(不支持Windows) 8G的RAM 2个vCPU 1.2 下载并解压 druid 下载地址:https://www.apache.org/dyn/closer.cgi?path=/incubator/druid/0.13.0-inc...
2018-12-26 14:31:32 2860
原创 Druid 数据查询
1.Druid 查询概述 上一节完成数据导入后,接下来讲讲Druid如何查询及统计分析导入的数据。 Druid的查询是使用REST风格的HTTP请求查询服务节点(Broker、Historical、Realtime),这些服务节点暴露REST查询接口,客户端发送Json对象请求查询接口。一般情况下,查询服务接口发布在Broker节点,基于Linux 的POST请求查询如下所示:...
2018-12-26 14:28:28 1570
原创 Druid 流式与批量数据摄取的结合
我们都知道, Druid在摄取时需要设置一个时间窗口, 在时间窗口之外的数据,将会丢弃。我们如何将这部分丢弃的数据重新摄取进Druid系统中,以提高数据的准确性?通常的做法是把数据保存起来, 等待重新摄取。 目前比较流行的处理方法是Lambda架构。 1.Lambda架构 Lambda是实时处理框架Storm 的作者Nathan Marz 提出的用于同时处理离线和实时数据...
2018-12-23 16:35:19 1020
原创 Druid 数据摄入
1. 概述 Druid的数据摄入主要包括两大类,流式数据摄入和静态数据摄入1.1 对于流式数据的摄入,Druid提供了两种方式,分别是push和pull, 采用pull方式摄取数据,需要启动一个实时节点,通过不同的firehose摄入不同的流式数据,firehose可以被认为Druid接入不同数据源的适配器。例如从kafka摄入数据,就用kafkaFirehose,从Rab...
2018-12-23 13:28:19 976
原创 Druid 安装部署(单机版)
1.安装包下载从https://imply.io/get-started 下载最新版本安装包2.安装部署 Imply提供了一套完整的部署方式,包括依赖库Druid,图形化的数据展示页面,SQL查询组件等,下面将基于Imply套件进行说明如何部署。2.1 将imply-2.7.10.tar.gz上传到hadoop102的/opt/software目录下,并解...
2018-12-23 13:05:16 1923
原创 Druid 架构详解
1. 前言 Druid 的目标是提供一个能够在大数据集上做实时数据摄入与查询的平台,然而对于大多数系统而言,提供数据的快速摄入与提供快速查询是难以同时实现的两个指标。例如对于普通的RDBMS,如果想要获取更快的查询速度,就会因为创建索引而牺牲掉写入的速度,如果想要更快的写入速度,则索引的创建就会受到限制。而Druid却可以完美的对两者进行结合,本文将对Druid如何实现这种结合做一个简单...
2018-12-22 23:13:57 1906
原创 Druid 基本介绍
1.概述 随着互联网快速发展,数据量增长快,达到TB、PB,以交通车流量为例,如湖南省每月的车辆流量至少达到4亿,这个数据量远不止如此。数据量如此大,如何满足后期分析,传统面向OLTP型数据库(ORACLE、MYSQL等)无法要求,渐渐开始转向OLAP,如GreenPlum等,虽然很多OLAP数据库吸收分布式计算思想,数据达到20亿以上后,进行Count、聚合等操作性能仍然达不到客户实时...
2018-12-21 19:57:47 5031 1
原创 时序数据库(TSDB:time series databases)
1.概述 时序列数据库(Time series database):用来存储时序列(time-series)数据并以时间(点或区间)建立索引的软件。一般时序列数据都具备 数据结构简单:某一度量指标在某一时间点只会有一个值,没有复杂的结构(嵌套、层次等)和关系(关联、主外键等)。 数据量大:由于时序列数据由所监控的大量数据源来产生、收集和发送...
2018-12-21 18:28:03 3786
原创 数据库连接池 Druid详解
1. Druid是什么? Druid首先是一个数据库连接池。Druid是目前最好的数据库连接池,在功能、性能、扩展性方面,都超过其他数据库连接池,包括DBCP、C3P0、BoneCP、Proxool、JBoss DataSource。 Druid能够提供强大的监控和扩展功能。 2. 在哪里下载druid 正式版本下载: maven中央仓库: http...
2018-12-21 10:53:15 922
原创 Druid 与 阿里开源项目Druid
Druid 单词来源于西方古罗马的神话人物,中文常常翻译成德鲁伊。 本问介绍的Druid 是一个分布式的支持实时分析的数据存储系统(Data Store),美国广告技术公司MetaMarkets 于2011 年创建了Druid 项目,并且于2012 年晚期开源了Druid 项目。Druid 设计之初的想法就是为分析而生,它在处理数据的规模、数据处理的实时性方面,比传统的OLAP ...
2018-12-20 20:11:48 3478 1
原创 HBase相对Hive查询速度快的对比
首先Hive的底层首先是MR,是属于批处理处理时间相对较长,不属于实时读写。在其架构上HBase和Hive有很大的区别. 架构介绍: Hive架构 (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至HiveServer。在启动 Clien...
2018-12-20 19:41:05 1365
原创 Hive 和 HBase 的区别
1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBas...
2018-12-20 18:42:21 214 1
原创 HBase 跨集群迁移数据-Snapshot 实现
HBase数据迁移方案有很多种,但今天我们来通过Snapshot方式来实现HBase的数据迁移(即将A集群HBase的数据迁移到B集群),废话不多说,直接进去主题吧: 参考文献:https://www.cnblogs.com/ballwql/p/hbase_data_transfer.html https://www.cnblogs...
2018-12-20 17:18:37 3285
原创 Transaction 那点事儿
Transaction 也就是所谓的事务了,通俗理解就是一件事情。从小,父母就教育我们,做事情要有始有终,不能半途而废。 事务也是这样,不能做一般就不做了,要么做完,要么就不做。也就是说,事务必须是一个不可分割的整体,就像我们在化学课里学到的原子,原子是构成物质的最小单位。于是,人们就归纳出事务的第一个特性:原子性(Atomicity)。我靠,一点都不神秘嘛。 特别是在数据库领域...
2018-12-18 10:20:51 235
原创 使用Hive读写ElasticSearch中的数据
1.通过sqoop使mysql和hive的数据进行同步: https://download.csdn.net/download/luomingkui1109/106676582.数据的全量与增量 https://blog.csdn.net/wujiandao/article/details/80413661...
2018-12-17 16:52:58 314
原创 Hive下查看表占用空间大小的方法
1.在mysql中,ifnull函数的用法,其表达式如下: IFNULL(expr1,expr2) 如果 expr1 不是 NULL,IFNULL() 返回 expr1,否则它返回 expr2。IFNULL()返回一个数字或字符串值,取决于它被使用的上下文环境。 举个应用场景,比如某一个字段定义为int类型,其默认值为0,但是在sql查询过程中,有可能出现为null,...
2018-12-17 16:51:41 4865 1
原创 Scala 定界延续
众所周知,索引对于数据库性能的影响至关重要,但是索引为什么可以提高查询效率,以及索引的种类及其特点可能不是很清楚,本文将对常用的索引类型以及特点做一个简单的介绍1.为什么要使用索引 首先来说一下索引为什么可以提高查询效率。普通查询的过程往往是通过整表的扫描来获得期望的结果,如果表的纪录非常的多,查询的效率肯定会很慢。而索引则会通过最大程度的降低扫描纪录的条数来提高效率,不同...
2018-12-17 16:21:13 308
原创 Scala 解析
Mysql中字符串处理的几种处理方法concat、concat_ws、group_concat以下详情:1.MySQL中concat函数使用方法:CONCAT(str1,str2,…)返回结果为连接参数产生的字符串。如有任何一个参数为NULL,则返回值为NULL。注意:如果所有参数均为非二进制字符串,则结果为非二进制字符串。如果自变量中含有任...
2018-12-17 16:10:58 501
原创 Scala简要:高级函数和高级类型
1.查询表中最早时间的一条记录(1)错误的:select a.*,MIN(enter_time) from g2monitor_range_event a; 解析:因为这样的话只是查询了数据库中的第一条记录,有查询了最早的时间,这是没有必然联系的。(2)正确的:select * from g2monitor_range_event where enter_time in(sele...
2018-12-17 16:08:11 8303 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人