Hadoop_梦里花又落的博客-CSDN博客

Hadoop

关注

文章平均质量分 94

关注数：文章数：10 文章阅读量：25006 文章收藏量：13

作者: 梦里花又落

程序员之所以犯错误，不是因为他们不懂，而是因为他们自以为什么都懂。算法和数据结构就是编程的一个重要部分，你若失掉了算法和数据结构，你就把一切都失掉了。算法和数据结构是程序的第一秘诀，缺之算法和数据结构是编程的最大原因。编程之久除了算法和数据结构，什么也不属于我们。编程就是算法和数据结构，算法和数据结构是编程的灵魂。编程中最没用的东西是源代码，最有用的东西是算法和数据结构。程序员的一生时间90%是用在编程上，而剩余的10%是活在世界上。有编过程的人的代码，比那些无知的人使用的软件更有价值。当你还不能写出自己满意的程序时，你就不要去睡觉。

展开

Hadoop中的辅助类ToolRunner和Configured的用法详解

源地址：http://www.it165.net/admin/html/201410/3821.html在开始学习hadoop时，最痛苦的一件事就是难以理解所写程序的执行过程，让我们先来看这个实例，这个测试类ToolRunnerTest继承Configured的基础上实现了Tool接口，下面对其用到的基类源码进行分析，就可以理解其执行过程是如此简单。。。。。。i

转载 2015-06-03 15:17:16 · 1048 阅读 · 0 评论
Hadoop下将大量小文件生成一个sequenceFile文件

概念：SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件，它可以在map/reduce过程中的input/output 的format时被使用。在map/reduce过程中，map处理文件的临时输出就是使用SequenceFile处理过的。所以一般的SequenceFile均是在FileSystem中生成，供map调用的原始文件。1.

转载 2016-09-08 11:56:27 · 4588 阅读 · 0 评论
hadoop yarn配置错误修正

hadoop执行log查看IP错误 yarn.resourcemanager.address bigdata01:8032 yarn.resourcemanager.scheduler.address bigdata01:8030 yarn.resourcemanager.resource-tracker.add

原创 2016-09-07 17:08:03 · 5491 阅读 · 1 评论
向CDH5集群中添加新的主机节点

向CDH5集群中添加新的主机节点步骤一：首先得在新的主机环境中安装JDK，关闭防火墙、修改selinux、NTP时钟与主机同步、修改hosts、与主机配置ssh免密码登录、保证安装好了perl和python.步骤二：上传cloudera-manager文件到/opt目录，修改agent配置文件：　　 vi /opt/cm-5.0.0/etc/cloudera-s

转载 2016-09-07 13:33:04 · 5738 阅读 · 0 评论
java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null

使用flume的时候出现的问题。 sink是hdfs，然后使用目录自动生成功能。出现如题的错误，看官网文档说的是需要在每个文件记录行的开头需要有时间戳，但是时间戳的格式可能比较难调节，所以亦可设置hdfs.useLocalTimeStamp这个参数，比如以每个小时作为一个文件夹，那么配置应该是这样： a1.sinks.k1.hdfs.path = hdfs://ubuntu:9000/fl

转载 2016-09-06 17:33:04 · 819 阅读 · 0 评论
使用Eclipse编译运行MapReduce程序 Hadoop2.6.0_Ubuntu/CentOS

本教程介绍的是如何在 Ubuntu/CentOS 中使用 Eclipse 来开发 MapReduce 程序，在 Hadoop 2.6.0 下验证通过。虽然我们可以使用命令行编译打包运行自己的MapReduce程序，但毕竟编写代码不方便。使用 Eclipse，我们可以直接对 HDFS 中的文件进行操作，可以直接运行代码，省去许多繁琐的命令。本教程由厦门大学数据库实验室出品，转载请注明。

转载 2016-09-02 16:44:45 · 438 阅读 · 0 评论
Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

当开始着手实践 Hadoop 时，安装 Hadoop 往往会成为新手的一道门槛。尽管安装其实很简单，书上有写到，官方网站也有 Hadoop 安装配置教程，但由于对 Linux 环境不熟悉，书上跟官网上简略的安装步骤新手往往 Hold 不住。加上网上不少教程也甚是坑，导致新手折腾老几天愣是没装好，很是打击学习热情。本教程适合于原生 Hadoop 2，包括 Hadoop 2.6.0, Hado

转载 2016-09-02 16:42:40 · 290 阅读 · 0 评论
Hive的内置服务和hiveserver/hiveserver2的比较

版权声明：[+]一：Hive的几种内置服务执行bin/hive --service help 如下： [html] view plain copy [master@master1 hive]$ bin/hive --service help ls: 无法访问/opt/spar

转载 2016-09-01 16:55:27 · 2513 阅读 · 0 评论
【Flume】flume中sink到hdfs，文件系统频繁产生文件，文件滚动配置不起作用？

本人在测试hdfs的sink，发现sink端的文件滚动配置项起不到任何作用，配置如下：a1.sinks.k1.type=hdfsa1.sinks.k1.channel=c1a1.sinks.k1.hdfs.useLocalTimeStamp=truea1.sinks.k1.hdfs.path=hdfs://192.168.11.177:9000/flume/events/%Y/%

转载 2016-09-01 15:14:10 · 3054 阅读 · 0 评论
hadoop 四种压缩格式

1 gzip压缩优点：压缩率比较高，而且压缩/解压速度也比较快；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；有hadoop native库；大部分linux系统都自带gzip命令，使用方便。缺点：不支持split。应用场景：当每个文件压缩之后在130M以内的（1个块大小内），都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个g

转载 2016-10-08 09:55:35 · 1027 阅读 · 0 评论

Hadoop

作者: 梦里花又落

Hadoop中的辅助类ToolRunner和Configured的用法详解

Hadoop下将大量小文件生成一个sequenceFile文件

hadoop yarn配置错误修正

向CDH5集群中添加新的主机节点

java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null

使用Eclipse编译运行MapReduce程序 Hadoop2.6.0_Ubuntu/CentOS

Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04

Hive的内置服务和hiveserver/hiveserver2的比较

【Flume】flume中sink到hdfs，文件系统频繁产生文件，文件滚动配置不起作用？

hadoop 四种压缩格式