hadoop
文章平均质量分 54
立喆
非典型IT男
展开
-
Hadoop2.6.0 Snappy 压缩安装与配置
先说点题外话,我们集群主要使用hive,Impala,spark sql等来处理数据,介于hdfs里面的数据没有压缩占用空间太大所以我们要对其进行压缩snappy比较适中 snappy 原生被hive等支持 首先看一下你的集群是否支持/安装了snappyhadoop checknative -a6/07/08 14:20:48 INFO bzip2.Bzip2Factory: Successfull原创 2016-07-08 14:28:19 · 3558 阅读 · 0 评论 -
Failed to connect to Sentry service Config key
INFO : Concurrency mode is disabled, not creating a lock manager INFO : Executing command(queryId=hadoop_20180713115353_a988c429-17a0-4b95-abce-458a9ffcc004): drop table if exists tmp.fbi_loan_deta...原创 2018-07-17 11:53:24 · 1023 阅读 · 0 评论 -
Presto查询优化
Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。查询语言是类ANSI SQL语句。笔者在多个项目中用到Presto做即席查询,总结了一些优化措施。一、数据存储合理设置分区 与Hive类似,Presto会根据元信息读取分区数据,合理的分区能减少Presto数据读取量,提升查询性能。使用列式存储 Presto对ORC文件读取做了特定优化,因此在Hive中创...转载 2018-03-14 16:32:57 · 1054 阅读 · 0 评论 -
HDFS NameNode内存预估
前言 《HDFS NameNode内存全景》中,我们从NameNode内部数据结构的视角,对它的内存全景及几个关键数据结构进行了简单解读,并结合实际场景介绍了NameNode可能遇到的问题,还有业界进行横向扩展方面的多种可借鉴解决方案。 事实上,对NameNode实施横向扩展前,会面临常驻内存随数据规模持续增长的情况,为此需要经历不断调整NameNode内存的堆空间大小的过程,期间会遇到几转载 2018-01-09 16:37:02 · 659 阅读 · 0 评论 -
hadoop2.0集群版本在线升级方法
HDFS Rolling Upgrade介绍HDFS 滚动升级允许单个的hdfs节点(守护进程)进行升级。例如,datanodes 节点可以单独升级不影响namenodes。反之亦然。升级在hadoop2.0版本,hdfs 支持 name services的ha功能,并且是强一致性的。这两个特性可以让我们有机会实现升级hdfs集群而不需要关闭hdfs服务。只有做了HA的集群才可以滚动升级。 如果在原创 2016-05-13 15:37:34 · 3164 阅读 · 1 评论 -
Compile and build specific Hadoop source code branch using Azure VM
Sometimes you may want to test a Hadoop feature that is available in a specific branch that is not available as a binary release. For example, in my case, I want to try accessing Azure Data Lake Store转载 2017-07-27 23:35:44 · 521 阅读 · 0 评论 -
Compile Hadoop in Docker container
https://github.com/kiwenlau/compile-hadoo FROM ubuntu:14.04 MAINTAINER kiwenlau # install dependencies for compiling hadoop RU原创 2017-07-27 23:32:25 · 250 阅读 · 0 评论 -
MapReduce1.0和MapReduce2.0
Hadoop:The Definitive Guid 总结 Chapter 6 MapReduce的工作原理 1.剖析MapReduce作业运行机制 1).经典MapReduce--MapReduce1.0 整个过程有有4个独立的实体 客户端:提交MapReduceJobTracker:协调作业的运行TaskTracker:运行作业划分后的任务HDFS:用转载 2017-06-29 11:48:04 · 4147 阅读 · 0 评论 -
datanode节点下线/删除/退役 Decommission Datanode
节点退役 Decommission DatanodeDecommission Datanode就是把Datanode从HDFS集群中移除掉。 Datanode是存储实际数据的,因此在Decommission Datanode的时候需要把Datanode上的数据迁移到别的机器上。下线的时候Datanode会有以下操作,1:计算块信息 2:删除块 3:copy块 4:校验块信息操作步骤 1:在Nam原创 2016-07-12 11:18:49 · 8044 阅读 · 0 评论 -
Sentry Beeline
环境Ubuntu STL 16.0.4 Hadoop 2.7.4 Hive 2.1.1 sentry 1.7.0 maven 3.5.0 //注:伪分布式环境1234567安装maven1.apache maven官网下载maven,用于编译sentry源码。 2.修改~/.bashrc文件,添加maven路径。export MAVEN_HOME=/etc/usr/local/maven...转载 2018-07-13 15:11:14 · 754 阅读 · 0 评论