--------【Hadoop】
文章平均质量分 91
代立冬
StayHungryStayFoolish外功修行内功修神
展开
-
YARN和MapReduce的内存设置参考
如何确定Yarn中容器Container,Mapreduce相关参数的内存设置,对于初始集群,由于不知道集群的类型(如CPU密集、IO密集还是网络密集)我们需要根据经验提供给我们一个参考配置值,来作为基础的配置。完成这一任务有两种方式,确定YARN和MapReduce的内存设置,我们可以使用HDP工具脚本进行内存配置设定运行hdp-configuration-utils.py 这个Python脚本原创 2016-03-21 23:11:50 · 8981 阅读 · 1 评论 -
大数据存储平台之异构存储实践
经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。这就产生了一种热和冷数据,对需要频繁访问的数据我们称之为“热”数据,反之我们称之为”冷”数据,而处于中间的数据我们称之为”温”数据。在数据被视为公司资产的时代,每个公司基本都会保存最近数年的数据,...原创 2018-03-13 10:28:11 · 6106 阅读 · 0 评论 -
Hadoop Yarn事件驱动处理框架源码分析
由于想在项目中使用类似yarn的事件处理机制,就看了实现。主要是由Dispatcher.java,EventHandler.java,Service.java这3个类撑起来的。在事件处理之前,先注册相应的事件处理handler,收到事件event后,由派发事件的Dispatcher进行派发,默认采用异步事件处理方式将事件放到事件队列(LinkedBlockingQueue)中,消费者会循环从队列原创 2016-06-21 21:54:46 · 5035 阅读 · 0 评论 -
CentOS 6.4安装配置ldap
CentOS 6.5安装配置ldap时间:2015-07-14 00:54来源:blog.51cto.com 作者:“ly36843运维” 博客 举报 点击:274次一.安装ldap[root@dev ~]# yum install openldap openldap-* -y[root@dev ~]# yum install转载 2015-11-19 01:10:20 · 2935 阅读 · 0 评论 -
停止ambari上服务的顺序
Before performing any upgrades or uninstalling software, stop all of the Hadoop services in the following order:RangerKnoxOozieWebHCatHiveServer2Hive MetastoreHBase原创 2015-11-20 17:56:29 · 4014 阅读 · 3 评论 -
CentOS 64位上编译 Hadoop2.6.0
由于hadoop-2.6.0.tar.gz安装包是在32位机器上编译的,64位的机器加载本地库.so文件时会出错,所以需要重新编译1.编译环境yum install cmake lzo-devel zlib-devel gcc gcc-c++ autoconf automake libtool ncurses-devel openssl-devel libXtst2.安装J原创 2015-03-26 15:14:57 · 2892 阅读 · 0 评论 -
hadoop更换硬盘
hadoop服务器更换硬盘操作步骤(datanode hadoop目录${HADOOP_HOME}/bin 日志位置:/var/log/hadoop)1.登陆服务器,切换到mapred用户,执行jps命令,查看是否有TaskTracker进程。如果有,执行hadoop-daemon.sh stop tasktracker,停止TaskTracker进程。2.切换到hdfs用户,执行j原创 2015-07-13 17:25:47 · 4070 阅读 · 0 评论 -
hadoop删除节点和添加节点
从hadoop移除机器把需要移除的机器增加到exclueds文件中,强制刷新datanode列表,等待decommission 状态正常后,即可停机下架,如有必要在namenode执行balancer操作。操作命令:在master的conf/hdfs-site.xml中加入 dfs.hosts.exclude exclud原创 2015-08-05 01:46:12 · 1359 阅读 · 0 评论 -
HDFS集中化缓存管理
问题导读1.HDFS集中化缓存管理具有哪些优势?2.HDFS中的集中化缓存管理有哪些使用场景?3.缓存管理有哪些命令?概述HDFS中的集中化缓存管理是一个明确的缓存机制,它允许用户指定要缓存的HDFS路径。NameNode会和保存着所需快数据的所有DataNode通信,并指导他们把块数据缓存在off-heap缓存中。HDF转载 2015-11-25 12:12:56 · 1539 阅读 · 0 评论 -
Reduce Side Join实现
Reduce Side Join ExampleUser and comment joinIn thisexample, we’ll be using theusers and comments tables from the StackOverflow dataset. Storing data in this matter makessense, as storingrepetitiv转载 2016-01-29 17:46:48 · 1254 阅读 · 0 评论 -
HDFS中的内存存储支持
因工作中olap场景中对性能的极致要求,我们将部分业务数据的hdfs路径的存储策略设置为放在内存中(RAM_DISK)中,这是在hadoop2.6以后的版本支持的。抽空翻译了官网的文章HDFS中的内存存储支持介绍 管理员配置 限制副本使用的内存 在数据节点上设置RAM磁盘 选择tmpfs(vs ramfs) 挂载RAM磁盘 使用RAM_DISK存储类型标记tmpfs卷 ...原创 2019-01-10 00:03:37 · 3210 阅读 · 3 评论