Hadoop
技术人Q
这个作者很懒,什么都没留下…
展开
-
Hadoop权威指南第三章笔记
1.HDFS的设计HDFS设计的适合对象:超大文件(TB级别的文件)、流式数据访问(一次写入,多次读取)、商用硬件(廉价硬件)HDFS设计不适合的对象:低时间延迟的数据访问、大量的小文件、多用户写入,任意修改文件(因为文件系统元数据存储在NameNode的内存中,所以小文件越多,占用的内存就越多。一般,每个文件,目录或者数据块的存储信息大约占150字节,转载 2015-06-23 16:09:15 · 902 阅读 · 0 评论 -
flume源码分析
1、LifecycleAwarepublic interface LifecycleAware { public void start(); public void stop(); public LifecycleState getLifecycleState(); }所有核心组件,全都实现这个接口。通过start,stop启动关闭,通过原创 2016-10-08 16:20:21 · 2576 阅读 · 0 评论 -
kafka源码阅读环境搭建
1、源码地址http://archive.apache.org/dist/kafka/0.10.0.0/kafka-0.10.0.0-src.tgz2、环境准备centOSgradle 下载地址 https://services.gradle.org/distributions/gradle-3.1-bin.zip 安装请参考 这里 。注意要安装3.1版本,如果安装1.1版本可能会...原创 2016-09-28 11:19:13 · 9214 阅读 · 0 评论 -
azkaban 用户权限配置
1、azkaban 用户权限管理介绍azkaban使用jetty创建服务端,通过配置$AZKABAN_WEB_HOME/conf/azkaban-users.xml文件来配置用户,在官网的说明如下http://azkaban.github.io/azkaban/docs/latest/#user-manager 。采用用户——角色——权限三个维度控制权限。其中用户可以创建用户组,给用户组制定权原创 2016-08-23 09:42:12 · 8003 阅读 · 0 评论 -
一次azkaban源码阅读经历
1、起因是使用azkaban配置邮件时,发现邮件不起作用。当时在azkaban-web/conf/azkaban.properties 文件中添加了如下配置# mail settingsmail.sender=ttttt@autohome.com.cnmail.host=114.114.114.114mail.user=ttttt@autohome.com.cnmail.passwo原创 2016-08-18 14:37:17 · 4080 阅读 · 3 评论 -
hive执行命令Specified key was too long; max key length is 767 bytes 问题
在进入Hive后可以show databases; 但create table, show tables;等命令都报错,如下:[ihadoop@Master ~]$ cd /home/ihadoop/hadoop/hive-0.11.0[ihadoop@Master hive-0.11.0]$ bin/hiveLogging initialized using configurat原创 2015-11-19 10:04:42 · 6609 阅读 · 0 评论 -
Hadoop优化点记录
1、 combiner函数,规约Map的结果,降低Reduce的压力2、 定期运行均衡器,平衡集群上的数据块分布。3、 对map的中间结果进行压缩(对优化可能有用)mapper的数量mapper需要运行多长时间?如果平均只要几秒钟,则可以看是否能用更少mapper运行更长的时间,通常是一分钟左右。时间长度取决于使用的输入格式。7.2.2原创 2015-10-28 21:21:34 · 440 阅读 · 0 评论 -
Hadoop权威指南第八章
计数器是一种收集Job统计的有效手段,用于质量控制或应用级统计。计数器的应用使得获取统计数据比使用日志文件获取数据更加容易。1).内置计数器Hadoop的内置计数器用来描述Job的各项指标,例如已处理的转载 2015-06-23 16:13:34 · 1062 阅读 · 1 评论 -
Hadoop权威指南第十章
1).永久性数据结构A.NameNode的目录结构NameNode被格式化之后,将产生所示的目录结构:${dfs.name.dir}/current/VERSION /edits /fsimage转载 2015-06-23 16:15:08 · 592 阅读 · 0 评论 -
Hadoop权威指南第四章
1.数据的完整性1).HDFS的数据完整性HDFS以透明方式校验所有写入它的数据,并在默认设置下,会在读取数据时验证校验和。针对数据的每个io.bytes.per.checksum字节都会创建一个单独的校验和。默认值为512字节;采用CRC-32(循环冗余校验)方式,任何大小的数据输入均计算得到一个32位的整数校验和(4字节)。DataNode负责在存储转载 2015-06-23 16:09:59 · 829 阅读 · 0 评论 -
Hadoop权威指南第五章
1.配置APIHadoop拥有很多xml配置文件,格式遵从一般xml的要求 见实例 color yellow Color size 10 Size weight heavy转载 2015-06-23 16:11:05 · 876 阅读 · 0 评论 -
Hadoop权威指南第九章笔记
1.集群规范1)配置规范一般Hadoop DataNode和TaskTracker节点典型机器具有吐下规范:处理器:2个四核 2~2.5 GHz CPU内存:16~24 ECC RAM存储器:4*1TB SA转载 2015-06-23 16:14:12 · 583 阅读 · 0 评论 -
Hadoop权威指南第七章
1.MapReduce的类型Hadoop的MapReduce一般遵循如下常规格式:m转载 2015-06-23 16:13:00 · 1023 阅读 · 0 评论 -
Hadoop权威指南第六章
转载自 http://www.cnblogs.com/biyeymyhjob/archive/2012/08/11/2631750.html1.剖析MapReduce作业运行机制1).经典MapReduce--MapReduce1.0整个过程有有4个独立的实体客户端:提交MapReduceJobTracker:协调作业的运行TaskTracker转载 2015-06-23 16:12:30 · 1175 阅读 · 0 评论 -
hadoop权威指南第一第二章笔记
Hadoop:The Definitive Guid 总结 Chapter 1~2 初识Hadoop、MapReduce 1.数据存储与分析问题:当磁盘的存储量随着时间的推移越来越大的时候,对磁盘上的数据的读取速度却没有多大的增长从多个磁盘上进行并行读写操作是可行的,但是存在以下几个方面的问题:1).第一个问题是硬件错误。使用的硬件越多出错的几率转载 2015-06-23 16:08:08 · 1098 阅读 · 0 评论 -
hadoop2.6 UserGroupInformation 获取用户名
Hadoop的客户端是通过FileSystem类操作hdfs的。FileSystem.get()方法获取FileSystem对象。 public static FileSystem get(final URI uri, final Configuration conf, final String user) throws IOException, InterruptedE原创 2016-12-30 13:55:33 · 6779 阅读 · 1 评论