- 博客(340)
- 资源 (11)
- 收藏
- 关注
转载 Apache Kylin集成superset
目前Kylin已经可以与superset进行集成,详细的说明可参考kylin官方文档: [ superset ]。但是superset原生并不支持kylin,因此我们需要安装Kyligence公司提供的kylinpy工具。这是一个python的kylin客户端工具,可以通过输入命令获取相应的kylin信息。安装好这个工具之后,我们就可以通过superset连接kylin进行访问了。相应的安装步骤和...
2018-06-28 13:18:55 1476 2
原创 ClickHouse的显著特性
ClickHouse的显著特性1. 真正的面向列的DBMS在一个真正的面向列的DBMS中,没有任何“垃圾”存储在值中。例如,必须支持定长数值,以避免在数值旁边存储它们的长度“数字”。例如,十亿个UInt8类型的值实际上应该消耗大约1GB的未压缩磁盘空间,否则这将强烈影响CPU的使用。由于解压缩的速度(CPU使用率)主要取决于未压缩的数据量,所以即使在未压缩的情况下,紧凑地存储数据(没有任何“垃圾
2018-05-09 17:35:29 12113
原创 什么是ClickHouse
什么是ClickHouse?ClickHouse 是面向OLAP 的分布式列式DBMS.在“正常”的面向行的DBMS中,数据按顺序进行存储:5123456789123456789 1 Eurobasket - Greece - Bosnia and Herzegovina - example.com 1 2011-09-01 01:03:02 6274717
2018-05-09 17:34:00 6304
原创 Embulk开门篇
笔者之前在一些博客中给大家介绍过Linkedin开源的Gobblin,它也是一个通用的数据抽取框架,可以将很多数据源(大家可以访问http://gobblin.apache.org,查看到具体的数据源有哪些,有动画演示)抽取到Hadoop大数据平台上,而且也具备了一些企业级的功能,比如可扩展,容错,事务,统一资源管理等等。这里就不再对Gobbin进行过多的介绍和研究。 今天笔者给大家带来另外一个开...
2018-03-06 23:07:16 2462
转载 常用消息队列对比
作为中间件,消息队列是分布式应用间交换信息的重要组件。消息队列可驻留在内存或磁盘上, 队列可以存储消息直到它们被应用程序读走。通过消息队列,应用程序可以在不知道彼此位置的情况下独立处理消息,或者在处理消息前不需要等待接收此消息。所以消息队列可以解决应用解耦、异步消息、流量削锋等问题,是实现高性能、高可用、可伸缩和最终一致性架构中不可以或缺的一环。下面对消息队列就直接使用MQ表示。现在比较常见的MQ...
2018-03-05 22:31:26 18478
原创 Hive组件高可用
Hive Metastore高可用此文档是为了系统管理员准备的,他们需要配置Hive Metastore高可用服务。 重要提示:支持HiveMetastore本身的关系型数据库也应该使用数据库系统所定义的最佳实践提供高可用性。 用例和故障转移场景本节提供关于Hive Metastore高可用(HA)的用例和故障转移场景的信息。 用例Metastore HA解决方案被设计用来处理metastore服
2018-01-03 15:39:09 4746 1
转载 Callable和Future
本篇说明的是Callable和Future,它俩很有意思的,一个产生结果,一个拿到结果。 Callable接口类似于Runnable,从名字就可以看出来了,但是Runnable不会返回结果,并且无法抛出返回结果的异常,而Callable功能更强大一些,被线程执行后,可以返回值,这个返回值可以被Future拿到,也就是说,Future可以拿到异步执行任务的返回值,下面来看一个简单的例子
2017-11-02 14:29:29 1602
原创 Apache Kylin的Cube分析
在本篇博客中,我将给大家带来关于Kylin的Cube方面的分析,其中包括如何去查看Cube中Cuboid统计信息,Cube大小等,但是不涉及Cube方面的优化。如果对Cube优化比较感兴趣的话,可以去查阅我之前写的关于Cube优化的文章。 1. Cuboid,Cube和Segment理解什么是Cuboid?什么是Cube?什么是Segment?我们这里简单说,不搞专业术语,不然人心惶惶的
2017-09-10 22:43:19 3154
原创 Kylin v2.0.0开始参数配置规则发生变化
本篇博客主要简单介绍一下Kylin从v2.0.0版本开始,kylin.properties中的配置参数名称方式了变化。当然老的配置参数仍然生效,建议针对v2.0.0开始的新版本Kylin使用新的配置参数名称。
2017-08-30 14:04:33 5704
转载 Hadoop NameNode 高可用 (High Availability) 实现解析
分享一篇对NameNode HA总结的不错的文章NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问,同时 Hadoo
2017-08-17 13:45:33 893
原创 Cloudera Manager 5升级(官方翻译整理,企业级实战验证)
本文档适合Cloudera Manager 5的所有版本的升级,而且使用tarballs进行升级,Tarballs包含Cloudera Manager Server和Cloudera ManagerAgent。https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ag_ug_cm5_tarballs.html#cm_a
2017-07-24 18:54:41 3658
原创 CentOS 7.3上图数据库Neo4j的安装和测试
本文档将介绍在CentOS 7.3上部署图数据库Neo4j,包括使用Python访问Neo4j图数据库。 步骤一:安装JDK(略) 步骤二:安装Python 2.7版本[root@openstack-node1 tmp]# python -VPython 2.7.5 步骤三:安装neo4j[root@openstack-node1 tmp]# cd /tmp[root@openstack-node
2017-06-07 22:52:39 5316 1
原创 HDFS配额设置和测试
名称配额(Name Quota)名称配额是在对应的目录下所有文件和目录名称的数量上的限制。当超过这个配额的时候,文件或目录就会创建失败,重命名后名称配额仍然有效。因为比较简单,所以我们直接测试:步骤一:创建一个测试目录[root@testbig1 ~]# hdfs dfs -mkdir /data/test_quota1 步骤二:设置创建的目录的名称配额[root@testbig1 ~]# hdf
2017-04-25 10:48:03 4495
原创 Zeppelin集成LDAP的部署和实践
环境信息:Zeppelin版本:0.7.0Kylin版本:1.6.0 Zeppelin部署:1. 修改$ZEPPELIN_HOME/conf/shiro.ini文件,配置Zeppelin集成LDAP:### A sample for configuring LDAP DirectoryRealmldapRealm = org.apache.zeppelin.realm.LdapGroup
2017-04-16 15:33:27 3877 8
原创 基于Hadoop开源组件部署Kylin分析平台
说明:不少读者反馈,想使用开源组件搭建Hadoop平台,然后再部署Kylin,但是遇到各种问题。这里我为读者部署一套环境,请朋友们参考一下。如果还有问题,再交流。系统环境以及各组件版本信息Linux操作系统:# cat /etc/redhat-release CentOS Linux release 7.2.1511 (Core) JDK版本:# java -versionjava version
2017-03-20 21:18:46 3994 4
原创 CentOS 7.2部署MariaDB Galera Cluster(10.1.21-MariaDB) 3主集群环境
MariaDB Galera Cluster 介绍Galera Cluster是由第三方公司Codership所研发的一套免费开源的集群高可用方案,实现了数据零丢失,官网地址为http://galeracluster.com/。其在MySQLInnoDB存储引擎基础上打了wrep(虚拟全同步复制),Percona/MariaDB已捆绑在各自的发行版本中。 MariaDB Galera Cluste
2017-03-16 23:08:27 19978
原创 CentOS 7.2部署MariaDB主从复制架构
MariaDB主从复制MySQL的二进制日志(binglog)会记录所有对数据库进行更改的操作,也就是说只要是会对数据库产生修改的操作都会被记录到二进制日志中去。记录二进制日志的主要目的有两方面:1. 恢复2. 复制 MySQL的复制就是基于二进制日志而完成的,其工作原理如下:当MySQL的Master节点的数据有更改的时候,Master会主动通知Slave,让Slave主动来
2017-03-16 22:52:46 5049
原创 Apache Kylin v2.0.0 beta 发布(来自官网)
Apache Kylin社区非常高兴地宣布 v2.0.0 beta package 已经可以下载并测试了。下载链接: http://kylin.apache.org/cn/download/源代码: https://github.com/apache/kylin/tree/kylin-2.0.0-beta自从v1.6.0版本发布已经2个多月了。这段时间里,整个社区协力开发完成了一系列重大的功能,希
2017-02-27 08:27:01 1484
原创 Kylin 1.6.0进行Streaming Cube构建时的问题总结
在使用Kylin从Kafka来进行Streaming Cubing时,构建过程中出现如下错误: 从这个步骤的日志中简单显示:killed by admin 如果无法知道具体原因,那么我们可以从Yarn的作业中来查看: 进入到MR作业中,查看具体日志为:MAP capability required is more than thesupported max container capability
2017-01-20 15:04:16 2924
原创 基于Cloudera Manager配置Impala的资源管理
Impala包含一些特性,可以在CDH集群中平衡和最大化资源。本章将说明如何使用Impala提升CDH集群的利用效率。 创建静态服务池使用静态服务池可以给Impala和其他服务分配专用的资源,以考虑到预计的资源需求。 静态服务池将服务彼此隔离开来,因此一个高负载的服务对其他服务的影响是有限的。你可以使用CM来配置静态服务池,控制内存,CPU和磁盘I/O。 l HDFS通常最少需要5-10%的资源
2017-01-17 16:02:13 9640
原创 Apache Kylin高级部分之使用Hive视图
本章节我们将介绍为什么需要在Kylin创建Cube过程中使用Hive视图;而如果使用Hive视图,能够带来什么好处,解决什么样的问题;以及需要学会如何使用视图,使用视图有什么限制等等。 1. 为什么需要使用视图Kylin创建Cube的过程中使用Hive的表数据作为输入源。但是有些情况下,Hive中的表定义和数据并不能满足分析的需求,例如有些列的值需要进行处理,有些列的类型不满足需求,甚至
2017-01-05 20:22:44 8020
原创 Apache Kylin高级部分之JDBC访问方式
Kylin提供了标准的ODBC和JDBC接口,能够和传统BI工具进行很好的集成。分析师们可以用他们最熟悉的工具来享受Kylin带来的快速。本章节介绍通过Java程序调用Kylin的JDBC接口访问Kylin的Cube数据。首先我们来看一下连接Kylin的URL格式为:jdbc:kylin://:/注:如果“ssl”为true话,那么上面的端口号应该为Kylin服务的HTTPS端口号。kylin_p
2016-12-22 23:33:49 12328
原创 使用UI for Docker工具来可视化管理Docker容器
今天给朋友们带来一款开源的用来管理Docker的UI工具,名字也很直接:UI For Docker。UI For Docker是一个使用Docker RemoteAPI的web接口,目的是提供一个简洁纯净的客户端实现,为了连接和管理Docker。 希望达到的目的:1. 最少依赖。保持项目是一个简洁纯净的html/js应用。2. 一致性。保持Web UI应该与Docker CLI
2016-11-26 21:31:48 7120
原创 Harbor部署和使用
简介Harbor是VMware公司开源的企业级DockerRegistry项目,项目地址为https://github.com/vmware/harbor。其目标是帮助用户迅速搭建一个企业级的Dockerregistry服务。它以Docker公司开源的registry为基础,提供了管理UI,基于角色的访问控制(Role Based Access Control),AD/LDAP集成、以及审计日志(
2016-11-21 22:42:13 23292 1
原创 搭建docker私有仓库
安装DockerDocker的安装请参考官网(http://www.docker.com),非常详细的介绍了各个操作系统的部署过程。对于CentOS 7.x操作系统的在线安装Docker,请参考如下:https://docs.docker.com/engine/installation/linux/centos 搭建Docker私有仓库Docker官方提供了一个公有的registry叫做Docke
2016-11-19 19:47:47 2920
原创 Apache Kylin的COUNT_DISTINCT精确去重实战
背景:Apache Kylin在1.5.3以及之前版本中使用精确去重只支持int类型,而目前1.5.4版本中已经支持其他数据类型的精确去重了,下面我们来验证一下对字符串进行精确去重。环境:Hadoop:2.6.0HBase:1.1.4Hive:1.2.1Kylin:1.5.4.1 准备数据:维表:region_tbl和city_tbl数据如下:region_tbl:regionid region
2016-10-23 22:37:00 7877 2
原创 搭建docker私有仓库
安装DockerDocker的安装请参考官网(http://www.docker.com),非常详细的介绍了各个操作系统的部署过程。对于CentOS 7.x操作系统的在线安装Docker,请参考如下:https://docs.docker.com/engine/installation/linux/centos如果使用离线RPM包安装Docker请参考另一个篇博客:http://blog.csdn
2016-10-15 12:10:24 2378
原创 集成Docker和Calico网络
组件介绍Calico:Calico是一个纯三层的协议,为OpenStack和Docker容器提供多主机间通信。Calico不使用重叠网络,使用虚拟路由代替虚拟交换,每一台虚拟路由通过BGP协议传播可达信息(路由)到剩余数据中心。 etcd:etcd是一个高可用的键值(key/value)存储系统,主要用于共享配置和服务发现,etcd 会在集群的各个节点中复制这些数据并保证这些数据始终正确。etcd
2016-10-15 12:06:54 6146
原创 基于 openssl 生成用于 SSL 和 TLS 的数字证书
数字证书就是互联网通讯中标志通讯各方身份信息的一串数字,提供了一种在Internet上验证通信实体身份的方式,数字证书不是数字身份证,而是身份认证机构盖在数字身份证上的一个章或印(或者说加在数字身份证上的一个签名)。它是由权威机构——CA机构,又称为证书授权(Certificate Authority)中心发行的,人们可以在网上用它来识别对方的身份。当前我们的信息系统中通过加密来安全的传输信息,
2016-10-03 23:53:41 4716
原创 CentOS 7安装完后无法上网的解决办法
发现问题:[root@mydocker network-scripts]# wget http://mirrors.163.com/.help/CentOS7-Base-163.repo--2016-10-01 09:43:12-- http://mirrors.163.com/.help/CentOS7-Base-163.repo正在解析主机 mirrors.163.com (mirrors.
2016-10-01 09:51:31 9351 2
原创 Flink的高可用集群环境
JobManager高可用(HA)JobManager协调每一个Flink集群环境,它负责作业调度和资源管理。默认情况下,一个Flink集群中只有一个JobManager实例,这很容易造成单点故障(SPOF)。如果JobManager奔溃了,那么将没有新的程序被提交,同时运行的程序将失败。 对于JobManager高可用来说,我们可以从失败的JobManager中恢复,因此可以消除单点故障的问题。
2016-09-23 17:34:21 6614
原创 Flink on Yarn部署
环境信息:Hadoop版本:2.6.0Flink版本:1.1.2 快速部署Flink on Yarn环境:比如启动一个有4个TaskManager(每个节点都有4GB堆内存)的Yarn会话:1. 下载Flink的软件包,如flink-1.1.2-bin-hadoop26-scala_2.11.tgz(因为我的Hadoop集群版本为2.6.0,Flink的Binary包是包含Yarn客户端
2016-09-22 22:54:42 8261 2
原创 Apache Flink的特性
ApacheFlink 是一个开源的分布式流处理和批处理系统。Flink的核心是在数据流上提供了数据分发、通信、具备容错的分布式计算。同时,Flink 在流处理引擎上构建了批处理引擎,原生支持了迭代计算、内存管理和程序优化。 Apache Flink的特性1. 流处理特性l 高吞吐、低延迟Flink 的流处理引擎只需要很少配置就能实现高吞吐率和低延迟。下图展示了一个分布式计数的任务的性
2016-09-21 18:24:25 2563
原创 Yarn最佳实践
本篇博客,我将讨论Yarn资源管理方面的最佳实践,如果有写的不对的地方,请朋友们多多指教。本篇文章也参考了网上的一些资料。 Hadoop2中引入Yarn组件,将MRv2(Yarn)分为两个主要组件,一个是资源管理,一个是作业调度和监控,并且使用独立的守护进程,全局的ResourceManager(RM)以及每个应用程序的ApplicationMaster(AM)。 ResourceManager(
2016-09-20 14:32:12 2287
原创 MapReduce原理
MapReduce程序的执行过程分为两个阶段:Mapper阶段和Reducer阶段。其中Mapper阶段可以分为6个步骤:第一阶段:先将HDFS中的输入文件file按照一定的标准进行切片,默认切片的类为FileInputFormat。FileInputFormat这个类继承自InputFormat,InputFormat这个类会将文件file按照逻辑进行划分,划分成的每一个split切片将会被分配
2016-09-19 23:53:48 1333
转载 Apache Hive2.0的新特性介绍
Hive 是一个基于 Hadoop 文件系统之上的数据仓库架构。它为数据仓库的管理提供了许多功能:数据 ETL (抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力。同时 Hive 还定义了类 SQL的语言 – Hive QL. Hive QL 允许用户进行和 SQL 相似的操作,它可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能。还允许开发人员方便地使用 M
2016-09-19 21:23:55 3049
原创 通过Spark结合使用Hive和ORC存储格式
在这篇博客中,我们将一起分析通过Spark访问Hive的数据,主要分享以下几点内容:1. 如何通过Spark Shell交互式访问Spark2. 如何读取HDFS文件和创建一个RDD3. 如何通过Spark API交互式地分析数据集4. 如何创建Hive的ORC格式的表5. 如何使用Spark SQL查询Hive表6. 如何以ORC格式存
2016-09-19 16:25:42 22244
原创 基于Docker搭建Hadoop集群(ubuntu操作系统)
1. 项目说明关于Docker方面的内容,我们这里就不做介绍了,大家可以访问Docker官方网站(https://www.docker.com)获取详细的信息,包括Docker安装部署,基本操作命令等等。 我这个项目的目标是将Hadoop集群运行在Docker容器中,使Hadoop开发者能够快速便捷地在本机搭建多节点的Hadoop集群,即通过一台Ubuntu节点运行Hadoop集群环境。
2016-09-17 08:54:06 3543
原创 Docker快速入门
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口。 Docker架构Docker 使用客户端-服务器(C/S)架构模式,使用远程API来管理和创建Docker容器。Docker容器通过Docker镜像来创建。容器与镜像的关系类似于面向对象编程中的
2016-09-17 08:32:08 981
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人