Callable和Future

本篇说明的是Callable和Future,它俩很有意思的,一个产生结果,一个拿到结果。        Callable接口类似于Runnable,从名字就可以看出来了,但是Runnable不会返回结果,并且无法抛出返回结果的异常,而Callable功能更强大一些,被线程执行后,可以返回值,这个返回值可以被Future拿到,也就是说,Future可以拿到异步执行任务的返回值,下面来看一个简单的例子...
阅读(60) 评论(0)

Apache Kylin的Cube分析

在本篇博客中,我将给大家带来关于Kylin的Cube方面的分析,其中包括如何去查看Cube中Cuboid统计信息,Cube大小等,但是不涉及Cube方面的优化。如果对Cube优化比较感兴趣的话,可以去查阅我之前写的关于Cube优化的文章。 1.      Cuboid,Cube和Segment理解什么是Cuboid?什么是Cube?什么是Segment?我们这里简单说,不搞专业术语,不然人心惶惶的...
阅读(269) 评论(0)

Kylin v2.0.0开始参数配置规则发生变化

本篇博客主要简单介绍一下Kylin从v2.0.0版本开始,kylin.properties中的配置参数名称方式了变化。当然老的配置参数仍然生效,建议针对v2.0.0开始的新版本Kylin使用新的配置参数名称。...
阅读(987) 评论(0)

Hadoop NameNode 高可用 (High Availability) 实现解析

分享一篇对NameNode HA总结的不错的文章NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问,同时 Hadoo...
阅读(323) 评论(0)

Cloudera Manager 5升级(官方翻译整理,企业级实战验证)

本文档适合Cloudera Manager 5的所有版本的升级,而且使用tarballs进行升级,Tarballs包含Cloudera Manager Server和Cloudera ManagerAgent。https://www.cloudera.com/documentation/enterprise/latest/topics/cm_ag_ug_cm5_tarballs.html#cm_a...
阅读(613) 评论(0)

CentOS 7.3上图数据库Neo4j的安装和测试

本文档将介绍在CentOS 7.3上部署图数据库Neo4j,包括使用Python访问Neo4j图数据库。 步骤一:安装JDK(略) 步骤二:安装Python 2.7版本[root@openstack-node1 tmp]# python -VPython 2.7.5 步骤三:安装neo4j[root@openstack-node1 tmp]# cd /tmp[root@openstack-node...
阅读(1223) 评论(0)

HDFS配额设置和测试

名称配额(Name Quota)名称配额是在对应的目录下所有文件和目录名称的数量上的限制。当超过这个配额的时候,文件或目录就会创建失败,重命名后名称配额仍然有效。因为比较简单,所以我们直接测试:步骤一:创建一个测试目录[root@testbig1 ~]# hdfs dfs -mkdir /data/test_quota1 步骤二:设置创建的目录的名称配额[root@testbig1 ~]# hdf...
阅读(334) 评论(0)

Zeppelin集成LDAP的部署和实践

环境信息:Zeppelin版本:0.7.0Kylin版本:1.6.0 Zeppelin部署:1.      修改$ZEPPELIN_HOME/conf/shiro.ini文件,配置Zeppelin集成LDAP:### A sample for configuring LDAP DirectoryRealmldapRealm = org.apache.zeppelin.realm.LdapGroup...
阅读(1756) 评论(8)

基于Hadoop开源组件部署Kylin分析平台

说明:不少读者反馈,想使用开源组件搭建Hadoop平台,然后再部署Kylin,但是遇到各种问题。这里我为读者部署一套环境,请朋友们参考一下。如果还有问题,再交流。系统环境以及各组件版本信息Linux操作系统:# cat /etc/redhat-release CentOS Linux release 7.2.1511 (Core) JDK版本:# java -versionjava version...
阅读(1428) 评论(2)

CentOS 7.2部署MariaDB Galera Cluster(10.1.21-MariaDB) 3主集群环境

MariaDB Galera Cluster 介绍Galera Cluster是由第三方公司Codership所研发的一套免费开源的集群高可用方案,实现了数据零丢失,官网地址为http://galeracluster.com/。其在MySQLInnoDB存储引擎基础上打了wrep(虚拟全同步复制),Percona/MariaDB已捆绑在各自的发行版本中。 MariaDB Galera Cluste...
阅读(3233) 评论(0)

CentOS 7.2部署MariaDB主从复制架构

MariaDB主从复制MySQL的二进制日志(binglog)会记录所有对数据库进行更改的操作,也就是说只要是会对数据库产生修改的操作都会被记录到二进制日志中去。记录二进制日志的主要目的有两方面:1.      恢复2.      复制 MySQL的复制就是基于二进制日志而完成的,其工作原理如下:当MySQL的Master节点的数据有更改的时候,Master会主动通知Slave,让Slave主动来...
阅读(737) 评论(0)

Apache Kylin v2.0.0 beta 发布(来自官网)

Apache Kylin社区非常高兴地宣布 v2.0.0 beta package 已经可以下载并测试了。下载链接: http://kylin.apache.org/cn/download/源代码: https://github.com/apache/kylin/tree/kylin-2.0.0-beta自从v1.6.0版本发布已经2个多月了。这段时间里,整个社区协力开发完成了一系列重大的功能,希...
阅读(610) 评论(0)

Kylin 1.6.0进行Streaming Cube构建时的问题总结

在使用Kylin从Kafka来进行Streaming Cubing时,构建过程中出现如下错误: 从这个步骤的日志中简单显示:killed by admin 如果无法知道具体原因,那么我们可以从Yarn的作业中来查看: 进入到MR作业中,查看具体日志为:MAP capability required is more than thesupported max container capability...
阅读(1228) 评论(0)

基于Cloudera Manager配置Impala的资源管理

Impala包含一些特性,可以在CDH集群中平衡和最大化资源。本章将说明如何使用Impala提升CDH集群的利用效率。 创建静态服务池使用静态服务池可以给Impala和其他服务分配专用的资源,以考虑到预计的资源需求。 静态服务池将服务彼此隔离开来,因此一个高负载的服务对其他服务的影响是有限的。你可以使用CM来配置静态服务池,控制内存,CPU和磁盘I/O。 l  HDFS通常最少需要5-10%的资源...
阅读(1536) 评论(0)

《基于Apache Kylin构建大数据分析平台》

自2011年下半年开始,我就一直关注Apache开源社区,侧重点放在大数据方面的成熟框架和产品。在这期间,陆续研究过Hadoop、Hive、HBase、Mahout、Kafka、Flume、Storm,以及近两年很火的Spark和Flink等,和很多从事大数据的朋友一样,经历过无数的夜晚,对着电脑屏幕逐行研究这些源代码,同时也看到无数的开源爱好者和技术专家加入Hadoop开源社区,贡献自己的力量,...
阅读(2794) 评论(0)
297条 共20页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:554862次
    • 积分:8107
    • 等级:
    • 排名:第2791名
    • 原创:250篇
    • 转载:45篇
    • 译文:2篇
    • 评论:110条
    我的新书
    博客专栏
    文章分类
    最新评论