● Hadoop
文章平均质量分 69
代立冬
StayHungryStayFoolish外功修行内功修神
展开
-
YARN和MapReduce的内存设置参考
如何确定Yarn中容器Container,Mapreduce相关参数的内存设置,对于初始集群,由于不知道集群的类型(如CPU密集、IO密集还是网络密集)我们需要根据经验提供给我们一个参考配置值,来作为基础的配置。完成这一任务有两种方式,确定YARN和MapReduce的内存设置,我们可以使用HDP工具脚本进行内存配置设定运行hdp-configuration-utils.py 这个Python脚本原创 2016-03-21 23:11:50 · 8969 阅读 · 1 评论 -
CentOS 6.4安装配置ldap
CentOS 6.5安装配置ldap时间:2015-07-14 00:54来源:blog.51cto.com 作者:“ly36843运维” 博客 举报 点击:274次一.安装ldap[root@dev ~]# yum install openldap openldap-* -y[root@dev ~]# yum install转载 2015-11-19 01:10:20 · 2920 阅读 · 0 评论 -
DataXceiver error processing unknown operation src: /127.0.0.1:36479 dst: /127.0.0.1:50010处理
异常信息如下: 2015-12-09 17:39:20,310 ERROR datanode.DataNode (DataXceiver.java:run(278)) - hadoop07:50010:DataXceiver error processingunknown operation src: /127.0.0.1:36479 dst: /127.0.0.1:50010原创 2015-12-17 18:06:25 · 27059 阅读 · 0 评论 -
[解决]java.io.IOException: Cannot obtain block length for LocatedBlock
Cannot obtain block length for LocatedBlock原创 2016-05-16 01:55:21 · 9348 阅读 · 0 评论 -
优化Hadoop Balancer运行速度
1. 修改dfs.datanode.max.transfer.threads = 4096 (如果运行hbase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanode.max.xcievers2. 修改dfs.datanode.balance.bandwidthPerSec = 52428800,指定DataNod...原创 2016-05-17 15:13:30 · 6856 阅读 · 0 评论 -
大数据应用分类
1.工具或者服务化平台。Hadoop基础套件的。像亚马逊云等3.数据交易。典型企业有数据堂,api接口的各公司2.数据统计分析。这一类主要是BI,既有企业自有产品,也有第三方产品5.报告或解决方案。做大数据解决方案的公司就很多了,典型的公司为IBM。4.数据挖掘。用户画像(标签:奶爸;户外达人),做广告,营销等6.人工智能/AI。微软小冰,机器人原创 2016-06-28 11:51:18 · 3388 阅读 · 0 评论 -
Hadoop Yarn事件驱动处理框架源码分析
由于想在项目中使用类似yarn的事件处理机制,就看了实现。主要是由Dispatcher.java,EventHandler.java,Service.java这3个类撑起来的。在事件处理之前,先注册相应的事件处理handler,收到事件event后,由派发事件的Dispatcher进行派发,默认采用异步事件处理方式将事件放到事件队列(LinkedBlockingQueue)中,消费者会循环从队列原创 2016-06-21 21:54:46 · 5019 阅读 · 0 评论 -
修改ranger ui的admin用户登录密码踩坑小记
修改的ranger ui的admin用户登录密码时,需要在ranger的配置里把admin_password改成一样的,否则hdfs的namenode在使用admin时启动不起来,异常如下:Traceback (most recent call last): ambari_ranger_admin, ambari_ranger_password = self.create_ambari_admin_user(ambari_ranger_admin, ambari_ranger_password, f原创 2016-10-27 10:33:13 · 6535 阅读 · 0 评论 -
Hadoop YARN 的工作流程简述
1、Client 向 YARN 提交应用程序,其中包括 ApplicationMaster 程序及启动 ApplicationMaster 的命令2、ResourceManager 为该 ApplicationMaster 分配第一个 Container,并与对应的 NodeManager 通信,要求它在这个 Container 中启动应用程序的 ApplicationMaster3、Applic原创 2016-12-18 22:55:25 · 1661 阅读 · 0 评论 -
python使用snappy压缩
今天在网上找了很久,终于找到1个snappy压缩命令行,记录下来:1.wget https://bootstrap.pypa.io/get-pip.py2.python ./get-pip.py3.yum install gcc-c++4.pip install python-snappy用法:python -m snappy -c uncompressed_file compressed_f原创 2017-02-08 19:48:51 · 7102 阅读 · 0 评论 -
Ambari和ClouderaManager主要不同对比
Ambari和ClouderaManager主要的不同对比 打算对新建的hadoop集群使用管理工具,列了以下主要的不同点: 主要的不同点 apache Ambari ClouderaManager Express(免费版) 配置版本控制和历史记录 支持 不支持 二次开发 支持 不支持 集成 支持 no (不支持redis、kylin、es) 维护原创 2017-02-28 11:29:32 · 9794 阅读 · 0 评论 -
dfs.datanode.du.reserved 预留空间不生效的问题
dfs.datanode.du.reserved 预留空间不生效的问题原创 2017-04-08 09:46:06 · 2054 阅读 · 1 评论 -
Log Aggregation Status TIME_OUT的缘起
在spark on yarn运行中,有时会发现spark程序运行完毕后,spark的运行界面没有信息,或者找不到相关的运行信息了,经仔细查看NodeManager UI,出现如下信息:Log Aggregation Status TIME_OUT原来NodeManager可以在应用结束后将日志安全地移动到分布式文件系统HDFS,当应用(application)结束时,用户能通过 YARN 的命令行原创 2017-12-09 21:32:19 · 2943 阅读 · 0 评论 -
大数据存储平台调优之Hadoop优化
大数据存储平台调优之Hadoop优化在上节搭建完集群、完成Linux系统配置(优化)后以及建好HDFS上的目录后,我们接下来需要对Hadoop集群做一些优化的工作。我们从两个方面来说:一是HDFS存储方面,一是计算方面 1、 HDFS方面:1> 存储格式的选择对于分析类型的业务来说,最好的存储格式自然是列存储,因为数据量巨大,只扫关心的数据列无疑具有很大优势。目前hadoop...原创 2018-03-15 23:22:54 · 2700 阅读 · 0 评论 -
journalnode Can't scan a pre-transactional edit log异常处理
一个测试环境hadoop集群由于磁盘满导致宕机,启动后发现journalnode报如下异常:2018-03-19 20:48:04,817 WARN namenode.FSImage (EditLogFileInputStream.java:scanEditLog(359)) - Caught exception after scanning through 0 ops from /data1_...原创 2018-03-20 17:03:58 · 3345 阅读 · 0 评论 -
大数据存储平台之异构存储实践
经常做数据处理的伙伴们肯定会有这样一种体会:最近一周内的数据会被经常使用到,而比如最近几周的数据使用率会有下降,每周仅仅被访问几次;在比如3月以前的数据使用率会大幅下滑,存储的数据可能一个月才被访问几次。这就产生了一种热和冷数据,对需要频繁访问的数据我们称之为“热”数据,反之我们称之为”冷”数据,而处于中间的数据我们称之为”温”数据。在数据被视为公司资产的时代,每个公司基本都会保存最近数年的数据,...原创 2018-03-13 10:28:11 · 5932 阅读 · 0 评论 -
各种压缩技术性能比较
各种压缩技术性能比较:Compressor name Ratio Compression Decompress. zstd 1.3.4 -1 2.877 470 MB/s 1380 MB/s zlib 1.2.11 -1 2.743 110 MB/s 400 MB/s brotli 1.0.2 -0 2.701 41...原创 2018-09-14 12:09:48 · 2852 阅读 · 0 评论 -
authentication vs authorization 验证与授权的区别
在看ldap的时候发现了两个关键词, authentication验证 和 authorization授权authentification验证 - 是指验证who you are(你是谁), 所以需要用到username和password进行身份验证。authorization授权 - 是指what can you do(你可以做什么), 而且这个发生在验证通过后。对一些文档的原创 2015-11-23 00:01:46 · 1429 阅读 · 0 评论 -
停止ambari上服务的顺序
Before performing any upgrades or uninstalling software, stop all of the Hadoop services in the following order:RangerKnoxOozieWebHCatHiveServer2Hive MetastoreHBase原创 2015-11-20 17:56:29 · 3993 阅读 · 3 评论 -
大数据安全规范
大数据的安全体系分为五个层次:周边安全、数据安全、访问安全(认证 - authentication和授权 - authorization)、访问行为可见、错误处理和异常管理原创 2016-04-23 23:31:30 · 11868 阅读 · 0 评论 -
Reduce Side Join实现
Reduce Side Join ExampleUser and comment joinIn thisexample, we’ll be using theusers and comments tables from the StackOverflow dataset. Storing data in this matter makessense, as storingrepetitiv转载 2016-01-29 17:46:48 · 1242 阅读 · 0 评论 -
HDFS集中化缓存管理
问题导读1.HDFS集中化缓存管理具有哪些优势?2.HDFS中的集中化缓存管理有哪些使用场景?3.缓存管理有哪些命令?概述HDFS中的集中化缓存管理是一个明确的缓存机制,它允许用户指定要缓存的HDFS路径。NameNode会和保存着所需快数据的所有DataNode通信,并指导他们把块数据缓存在off-heap缓存中。HDF转载 2015-11-25 12:12:56 · 1530 阅读 · 0 评论 -
hadoop删除节点和添加节点
从hadoop移除机器把需要移除的机器增加到exclueds文件中,强制刷新datanode列表,等待decommission 状态正常后,即可停机下架,如有必要在namenode执行balancer操作。操作命令:在master的conf/hdfs-site.xml中加入 dfs.hosts.exclude exclud原创 2015-08-05 01:46:12 · 1347 阅读 · 0 评论 -
hadoop更换硬盘
hadoop服务器更换硬盘操作步骤(datanode hadoop目录${HADOOP_HOME}/bin 日志位置:/var/log/hadoop)1.登陆服务器,切换到mapred用户,执行jps命令,查看是否有TaskTracker进程。如果有,执行hadoop-daemon.sh stop tasktracker,停止TaskTracker进程。2.切换到hdfs用户,执行j原创 2015-07-13 17:25:47 · 4051 阅读 · 0 评论 -
CentOS 64位上编译 Hadoop2.6.0
由于hadoop-2.6.0.tar.gz安装包是在32位机器上编译的,64位的机器加载本地库.so文件时会出错,所以需要重新编译1.编译环境yum install cmake lzo-devel zlib-devel gcc gcc-c++ autoconf automake libtool ncurses-devel openssl-devel libXtst2.安装J原创 2015-03-26 15:14:57 · 2878 阅读 · 0 评论 -
[解决] User [dr.who] is not authorized to view the logs for application
User [dr.who] is not authorized to view the logs for application原因 Resource Manager UI的默认用户dr.who权限不正确原创 2016-03-02 21:26:42 · 8976 阅读 · 0 评论 -
File file:/data1/hadoop/yarn/local/usercache/hp/appcache/application_* does not exi
AM Container for appattempt_1453292851883_0381_000002 exited with exitCode: -1000For more detailed output, check application tracking page:http://hadoop:8088/cluster/app/application_1453292851883_01原创 2016-01-24 16:21:53 · 6768 阅读 · 0 评论 -
Caused by: java.io.IOException: Filesystem closed的处理
org.apache.hadoop.hive.ql.metadata.HiveException: Unable to rename output from: hdfs://nameservice/user/hive/warehouse/om_dw.db/mac_wifi_day_data/tid=CYJOY/.hive-staging_hive_2016-01-20_10-19-09_200_1原创 2016-01-24 16:16:55 · 7832 阅读 · 0 评论 -
mapreduce出现大量task被KILLED_UNCLEAN的3个原因
Request received to kill task 'attempt_201411191723_2827635_r_000009_0' by user-------Task has been KILLED_UNCLEAN by the user1.An impatient user (armed with "mapred job -kill-task" command)原创 2015-08-12 17:11:18 · 3707 阅读 · 0 评论 -
Error in deleting blocks.
2014-08-24 22:15:21,714 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Error processing datanode Commandjava.io.IOException: Error in deleting blocks. at org.apache.hadoop.hdfs.serve原创 2015-06-09 23:23:00 · 1322 阅读 · 0 评论 -
org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in receiveBlock for block
Hbase依赖的datanode日志中如果出现如下报错信息:DataXceiverjava.io.EOFException:INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in receiveBlock for block 解决办法:Hbase侧配置的dfs.socket.tim原创 2015-06-09 23:20:06 · 2227 阅读 · 0 评论 -
480000 millis timeout while waiting for channel to be ready for write异常处理
480000 millis timeout while waiting for channel to be ready for write原创 2015-06-09 23:14:00 · 7690 阅读 · 0 评论 -
missing blocks错误
Datanode的日志中看到: 10/12/14 20:10:31 INFO hdfs.DFSClient: Could not obtain block blk_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: java.io.IOException: No live nodes contain current block. Will get ne原创 2015-06-09 23:07:50 · 1958 阅读 · 0 评论 -
namenode磁盘满引发recover edits文件报错
前段时间公司hadoop集群宕机,发现是namenode磁盘满了, 清理出部分空间后,重启集群时,重启失败。又发现集群Secondary namenode 服务也恰恰坏掉,导致所有的操作log持续写入edits.new 文件,等集群宕机的时候文件大小已经达到了丧心病狂的70G+..重启集群报错 加载edits文件失败。分析加载文件报错原因是磁盘不足导致最后写入的log只写入一半就宕机了。由转载 2015-01-31 23:21:35 · 2354 阅读 · 0 评论 -
ambari server内存溢出
java.lang.OutOfMemoryError: PermGen spaceat java.lang.ClassLoader.defineClass1(Native Method)at java.lang.ClassLoader.defineClass(ClassLoader.java:800)at java.security.SecureClassLoader.defineCl原创 2015-12-02 15:39:51 · 3653 阅读 · 0 评论 -
HDFS中的内存存储支持
因工作中olap场景中对性能的极致要求,我们将部分业务数据的hdfs路径的存储策略设置为放在内存中(RAM_DISK)中,这是在hadoop2.6以后的版本支持的。抽空翻译了官网的文章HDFS中的内存存储支持介绍 管理员配置 限制副本使用的内存 在数据节点上设置RAM磁盘 选择tmpfs(vs ramfs) 挂载RAM磁盘 使用RAM_DISK存储类型标记tmpfs卷 ...原创 2019-01-10 00:03:37 · 3181 阅读 · 3 评论