![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 94
梦里花又落
程序员之所以犯错误,不是因为他们不懂,而是因为他们自以为什么都懂。
算法和数据结构就是编程的一个重要部分,你若失掉了算法和数据结构,你就把一切都失掉了。
算法和数据结构是程序的第一秘诀,缺之算法和数据结构是编程的最大原因。
编程之久除了算法和数据结构,什么也不属于我们。
编程就是算法和数据结构,算法和数据结构是编程的灵魂。
编程中最没用的东西是源代码,最有用的东西是算法和数据结构。
程序员的一生时间90%是用在编程上,而剩余的10%是活在世界上。
有编过程的人的代码,比那些无知的人使用的软件更有价值。
当你还不能写出自己满意的程序时,你就不要去睡觉。
展开
-
Hadoop中的辅助类ToolRunner和Configured的用法详解
源地址:http://www.it165.net/admin/html/201410/3821.html在开始学习hadoop时,最痛苦的一件事就是难以理解所写程序的执行过程,让我们先来看这个实例,这个测试类ToolRunnerTest继承Configured的基础上实现了Tool接口,下面对其用到的基类源码进行分析,就可以理解其执行过程是如此简单。。。。。。i转载 2015-06-03 15:17:16 · 1048 阅读 · 0 评论 -
Hadoop下将大量小文件生成一个sequenceFile文件
概念:SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件,它可以在map/reduce过程中的input/output 的format时被使用。在map/reduce过程中,map处理文件的临时输出就是使用SequenceFile处理过的。 所以一般的SequenceFile均是在FileSystem中生成,供map调用的原始文件。1.转载 2016-09-08 11:56:27 · 4588 阅读 · 0 评论 -
hadoop yarn配置错误修正
hadoop执行log查看IP错误 yarn.resourcemanager.address bigdata01:8032 yarn.resourcemanager.scheduler.address bigdata01:8030 yarn.resourcemanager.resource-tracker.add原创 2016-09-07 17:08:03 · 5491 阅读 · 1 评论 -
向CDH5集群中添加新的主机节点
向CDH5集群中添加新的主机节点步骤一:首先得在新的主机环境中安装JDK,关闭防火墙、修改selinux、NTP时钟与主机同步、修改hosts、与主机配置ssh免密码登录、保证安装好了perl和python.步骤二:上传cloudera-manager文件到/opt目录,修改agent配置文件: vi /opt/cm-5.0.0/etc/cloudera-s转载 2016-09-07 13:33:04 · 5738 阅读 · 0 评论 -
java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null
使用flume的时候出现的问题。 sink是hdfs,然后使用目录自动生成功能。出现如题的错误,看官网文档说的是需要在每个文件记录行的开头需要有时间戳,但是时间戳的格式可能比较难调节,所以亦可设置hdfs.useLocalTimeStamp这个参数,比如以每个小时作为一个文件夹,那么配置应该是这样: a1.sinks.k1.hdfs.path = hdfs://ubuntu:9000/fl转载 2016-09-06 17:33:04 · 819 阅读 · 0 评论 -
使用Eclipse编译运行MapReduce程序 Hadoop2.6.0_Ubuntu/CentOS
本教程介绍的是如何在 Ubuntu/CentOS 中使用 Eclipse 来开发 MapReduce 程序,在 Hadoop 2.6.0 下验证通过。虽然我们可以使用命令行编译打包运行自己的MapReduce程序,但毕竟编写代码不方便。使用 Eclipse,我们可以直接对 HDFS 中的文件进行操作,可以直接运行代码,省去许多繁琐的命令。本教程由厦门大学数据库实验室出品,转载请注明。转载 2016-09-02 16:44:45 · 438 阅读 · 0 评论 -
Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
当开始着手实践 Hadoop 时,安装 Hadoop 往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有 Hadoop 安装配置教程,但由于对 Linux 环境不熟悉,书上跟官网上简略的安装步骤新手往往 Hold 不住。加上网上不少教程也甚是坑,导致新手折腾老几天愣是没装好,很是打击学习热情。本教程适合于原生 Hadoop 2,包括 Hadoop 2.6.0, Hado转载 2016-09-02 16:42:40 · 290 阅读 · 0 评论 -
Hive的内置服务和hiveserver/hiveserver2的比较
版权声明:[+]一:Hive的几种内置服务 执行bin/hive --service help 如下: [html] view plain copy [master@master1 hive]$ bin/hive --service help ls: 无法访问/opt/spar转载 2016-09-01 16:55:27 · 2513 阅读 · 0 评论 -
【Flume】flume中sink到hdfs,文件系统频繁产生文件,文件滚动配置不起作用?
本人在测试hdfs的sink,发现sink端的文件滚动配置项起不到任何作用,配置如下:a1.sinks.k1.type=hdfsa1.sinks.k1.channel=c1a1.sinks.k1.hdfs.useLocalTimeStamp=truea1.sinks.k1.hdfs.path=hdfs://192.168.11.177:9000/flume/events/%Y/%转载 2016-09-01 15:14:10 · 3054 阅读 · 0 评论 -
hadoop 四种压缩格式
1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个g转载 2016-10-08 09:55:35 · 1027 阅读 · 0 评论