菠萝大数据梦工厂(Free World)

专注于Hadoop,Spark,Flink,Kafka,Elastic,HBase,Hive,Kylin等大数据相关技术的源码研究和企业级实战...

个人开通大数据小蜜圈

大家好,这些年我一直专注于企业级大数据领域的技术研究和应用实践。之前有朋友推荐我可以建立一个圈子,把自己这些年企业级大数据平台的部署,优化,维护,以及各种开源组件的研究等分享出来。于是就有了这个圈子的诞生,名为《企业级大数据实践》。 在工作之余,我也经常分享技术,参加社区并发表演讲,出版书籍等。 ...

2018-03-05 22:14:16

阅读数 531

评论数 0

Apache Kylin集成superset

目前Kylin已经可以与superset进行集成,详细的说明可参考kylin官方文档: [ superset ]。但是superset原生并不支持kylin,因此我们需要安装Kyligence公司提供的kylinpy工具。这是一个python的kylin客户端工具,可以通过输入命令获取相应的kyl...

2018-06-28 13:18:55

阅读数 607

评论数 2

ClickHouse的显著特性

ClickHouse的显著特性1.  真正的面向列的DBMS在一个真正的面向列的DBMS中,没有任何“垃圾”存储在值中。例如,必须支持定长数值,以避免在数值旁边存储它们的长度“数字”。例如,十亿个UInt8类型的值实际上应该消耗大约1GB的未压缩磁盘空间,否则这将强烈影响CPU的使用。由于解压缩的...

2018-05-09 17:35:29

阅读数 6065

评论数 0

什么是ClickHouse

什么是ClickHouse?ClickHouse 是面向OLAP 的分布式列式DBMS.在“正常”的面向行的DBMS中,数据按顺序进行存储:5123456789123456789    1     Eurobasket - Greece - Bosnia and Herzegovina - exa...

2018-05-09 17:34:00

阅读数 2978

评论数 0

Embulk开门篇

笔者之前在一些博客中给大家介绍过Linkedin开源的Gobblin,它也是一个通用的数据抽取框架,可以将很多数据源(大家可以访问http://gobblin.apache.org,查看到具体的数据源有哪些,有动画演示)抽取到Hadoop大数据平台上,而且也具备了一些企业级的功能,比如可扩展,容错...

2018-03-06 23:07:16

阅读数 881

评论数 0

常用消息队列对比

作为中间件,消息队列是分布式应用间交换信息的重要组件。消息队列可驻留在内存或磁盘上, 队列可以存储消息直到它们被应用程序读走。通过消息队列,应用程序可以在不知道彼此位置的情况下独立处理消息,或者在处理消息前不需要等待接收此消息。所以消息队列可以解决应用解耦、异步消息、流量削锋等问题,是实现高性能、...

2018-03-05 22:31:26

阅读数 16531

评论数 0

Hive组件高可用

Hive Metastore高可用此文档是为了系统管理员准备的,他们需要配置Hive Metastore高可用服务。 重要提示:支持HiveMetastore本身的关系型数据库也应该使用数据库系统所定义的最佳实践提供高可用性。 用例和故障转移场景本节提供关于Hive Metastore高可用(HA...

2018-01-03 15:39:09

阅读数 1343

评论数 0

Callable和Future

本篇说明的是Callable和Future,它俩很有意思的,一个产生结果,一个拿到结果。        Callable接口类似于Runnable,从名字就可以看出来了,但是Runnable不会返回结果,并且无法抛出返回结果的异常,而Callable功能更强大一些,被线程执行后,可以返回值,这个返...

2017-11-02 14:29:29

阅读数 1344

评论数 0

Apache Kylin的Cube分析

在本篇博客中,我将给大家带来关于Kylin的Cube方面的分析,其中包括如何去查看Cube中Cuboid统计信息,Cube大小等,但是不涉及Cube方面的优化。如果对Cube优化比较感兴趣的话,可以去查阅我之前写的关于Cube优化的文章。 1.      Cuboid,Cube和Segment理解...

2017-09-10 22:43:19

阅读数 2102

评论数 0

Kylin v2.0.0开始参数配置规则发生变化

本篇博客主要简单介绍一下Kylin从v2.0.0版本开始,kylin.properties中的配置参数名称方式了变化。当然老的配置参数仍然生效,建议针对v2.0.0开始的新版本Kylin使用新的配置参数名称。

2017-08-30 14:04:33

阅读数 3749

评论数 0

Hadoop NameNode 高可用 (High Availability) 实现解析

分享一篇对NameNode HA总结的不错的文章NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整...

2017-08-17 13:45:33

阅读数 579

评论数 0

Cloudera Manager 5升级(官方翻译整理,企业级实战验证)

本文档适合Cloudera Manager 5的所有版本的升级,而且使用tarballs进行升级,Tarballs包含Cloudera Manager Server和Cloudera ManagerAgent。https://www.cloudera.com/documentation/enter...

2017-07-24 18:54:41

阅读数 2719

评论数 0

CentOS 7.3上图数据库Neo4j的安装和测试

本文档将介绍在CentOS 7.3上部署图数据库Neo4j,包括使用Python访问Neo4j图数据库。 步骤一:安装JDK(略) 步骤二:安装Python 2.7版本[root@openstack-node1 tmp]# python -VPython 2.7.5 步骤三:安装neo4j[roo...

2017-06-07 22:52:39

阅读数 4295

评论数 0

HDFS配额设置和测试

名称配额(Name Quota)名称配额是在对应的目录下所有文件和目录名称的数量上的限制。当超过这个配额的时候,文件或目录就会创建失败,重命名后名称配额仍然有效。因为比较简单,所以我们直接测试:步骤一:创建一个测试目录[root@testbig1 ~]# hdfs dfs -mkdir /data...

2017-04-25 10:48:03

阅读数 1871

评论数 0

Zeppelin集成LDAP的部署和实践

环境信息:Zeppelin版本:0.7.0Kylin版本:1.6.0 Zeppelin部署:1.      修改$ZEPPELIN_HOME/conf/shiro.ini文件,配置Zeppelin集成LDAP:### A sample for configuring LDAP DirectoryR...

2017-04-16 15:33:27

阅读数 2859

评论数 8

基于Hadoop开源组件部署Kylin分析平台

说明:不少读者反馈,想使用开源组件搭建Hadoop平台,然后再部署Kylin,但是遇到各种问题。这里我为读者部署一套环境,请朋友们参考一下。如果还有问题,再交流。系统环境以及各组件版本信息Linux操作系统:# cat /etc/redhat-release CentOS Linux releas...

2017-03-20 21:18:46

阅读数 3293

评论数 5

CentOS 7.2部署MariaDB Galera Cluster(10.1.21-MariaDB) 3主集群环境

MariaDB Galera Cluster 介绍Galera Cluster是由第三方公司Codership所研发的一套免费开源的集群高可用方案,实现了数据零丢失,官网地址为http://galeracluster.com/。其在MySQLInnoDB存储引擎基础上打了wrep(虚拟全同步复制)...

2017-03-16 23:08:27

阅读数 15664

评论数 0

CentOS 7.2部署MariaDB主从复制架构

MariaDB主从复制MySQL的二进制日志(binglog)会记录所有对数据库进行更改的操作,也就是说只要是会对数据库产生修改的操作都会被记录到二进制日志中去。记录二进制日志的主要目的有两方面:1.      恢复2.      复制 MySQL的复制就是基于二进制日志而完成的,其工作原理如下:...

2017-03-16 22:52:46

阅读数 3857

评论数 0

Apache Kylin v2.0.0 beta 发布(来自官网)

Apache Kylin社区非常高兴地宣布 v2.0.0 beta package 已经可以下载并测试了。下载链接: http://kylin.apache.org/cn/download/源代码: https://github.com/apache/kylin/tree/kylin-2.0.0-...

2017-02-27 08:27:01

阅读数 973

评论数 0

Kylin 1.6.0进行Streaming Cube构建时的问题总结

在使用Kylin从Kafka来进行Streaming Cubing时,构建过程中出现如下错误: 从这个步骤的日志中简单显示:killed by admin 如果无法知道具体原因,那么我们可以从Yarn的作业中来查看: 进入到MR作业中,查看具体日志为:MAP capability required...

2017-01-20 15:04:16

阅读数 2426

评论数 1

提示
确定要删除当前文章?
取消 删除