HaDoop学习笔记
iteye_14580
这个作者很懒,什么都没留下…
展开
-
hadoop_AVRO数据序列化系统_简介
声明()内容为个人理解,[]内容为注解(1)Avro是一个独立于编程语言的数据序列化系统[基于IDL],目的在于解决hadoop中的语言移植性问题;Avro数据是用语言无关的模式定义的。【注解】IDL:接口描述语言,以不依赖于具体语言的方式进行声明,以独立于语言和硬件的方式来定义接口。(2)Avro模式通常采用JSON写,数据通常采用二进制格式来编码,也可以用Avro IDL语言编...原创 2015-10-09 22:47:23 · 138 阅读 · 0 评论 -
Hadoop_Avro数据类型与模式
1.Avro基本数据类型类型 描述 模式示例null The absence of a value "null"boolean A binary value "boolean"int 32位带符号整数 "int"long 64位带符号整数 "long"float ...原创 2015-10-10 00:01:08 · 439 阅读 · 0 评论 -
hadoop作业的优化常用手段
在mapreduce应用机制全部完成后,常面临一个常见问题“作业运行太慢”,此时我们需要通过一下几个方面进行调优,一边提升作业运行速度(1)通过jobtracker的web界面可以查看到本次作业使用的mapper数量,查看每个mapper的平均运行时间,如果mapper运行时间过短(如每个mapper运行10多秒),此时苗明mapper没有得到良好的利用,我们需要减少mapper的数量,使...2015-10-13 23:38:39 · 199 阅读 · 0 评论 -
MapReduce 从作业、任务(task)、管理员角度调优
【摘自hyj博主】Hadoop为用户作业提供了多种可配置的参数,以允许用户根据作业特点调整这些参数值使作业运行效率达到最优。一 应用程序编写规范1.设置Combiner 对于一大批MapReduce程序,如果可以设置一个Combiner,那么对于提高作业性能是十分有帮助的。Combiner可减少Map Task中间输出的结果,从而减少各个Reduce Task的远程拷...2015-10-14 00:53:16 · 573 阅读 · 0 评论 -
R语言与hadoop之间的千万柔情
Hadoop的家族如此之强大,为什么还要结合R语言?a. Hadoop家族的强大之处,在于对大数据的处理,让原来的不可能(TB,PB数据量计算),成为了可能。b. R语言的强大之处,在于统计分析,在没有Hadoop之前,我们对于大数据的处理,要取样本,假设检验,做回归,长久以来R语言都是统计学家专属的工具。c. 从a和b两点,我们可以看出,hadoop重点是全量数据分析,而R语言重点是...原创 2015-11-06 21:02:45 · 147 阅读 · 0 评论 -
hive建的表丢了?其实它一直在
问题来了:1.hive使用derby作为元数据库找达到所创建表的原因?2.为什么会找不到所创建的表?根本没有小偷,是我们找错地方了》》》》在学习环境中,我们习惯使用derby作为hive元数据库,也就是这个嵌入式数据库很可能为很多hive学习者造成很多问题。问题场景:1.命令行键入 hive后创建表,2.在show tables; 显示表列表,上面显示刚才创建的...2015-12-03 18:49:29 · 1595 阅读 · 0 评论 -
32位hadoop编译实现与64位操作系统兼容
没有安装过集群的朋友,可能没有发现,hadoop版本没有64位的,我们在安装hadoop之前需要将hadoop源码包进行编译,否则lib下的部分jar包无法使用【有人可能会说hadoop不分操作系统的bit数,这个问题我有怎么会悄悄告诉你呢!!!!哈哈,开玩笑,接下来,给大家分享一下我第一次编译出现的糗事】如果不编译会出现啥问题呢??你可以看俺遇到的问题描述:[root@db96 ...原创 2015-12-08 20:47:25 · 307 阅读 · 0 评论