ATCO[这里,只是顺手插曲]

KEEP住个势,努力!

Hive安装及使用攻略

前言 Hive是Hadoop一个程序接口,Hive让数据分析人员快速上手,Hive使用了类SQL的语法,Hive让JAVA的世界变得简单而轻巧,Hive让Hadoop普及到了程序员以外的人。 从Hive开始,让分析师们也能玩转大数据。 目录 Hive的安装 Hive的基本使用:CRUD ...

2015-04-02 17:25:40

阅读数 623

评论数 0

Hadoop运维记录系列【收集整理】

网上搜集 集群里面有三台服务器需要升级CPU。不多不少,恰恰是三台,符合Hadoop集群配置的replication数量。运维人员没有沟通,通知了一下,然后就瞬间停了3台服务器。这下坏了,整个集群基本就废了。存数据当然没问题,但是查数完全不能查了。之后留守的数据组人员就发现集群无论如何也起不...

2015-04-01 16:15:46

阅读数 1148

评论数 0

hadoop安装配置之ssh无密码登陆

hadoop安装配置之ssh无密码登陆   os:redhat 6   hadoop 两个节点,一个master 一个slave   192.168.0.1  master   192.168.0.2. slave   1.修改每台机器的/etc/hosts,增加 192.1...

2015-03-23 17:46:59

阅读数 672

评论数 0

ZOOKEEPER安装配置

Zookeeper的安装和配置十分简单, 既可以配置成单机模式, 也可以配置成集群模式. 下面将分别进行介绍. 单机模式 点击这里下载zookeeper的安装包之后, 解压到合适目录. 进入zookeeper目录下的conf子目录, 创建zoo.cfg: Bash代码   ...

2015-02-06 11:41:20

阅读数 409

评论数 0

HADOOP 集群安装

这里的HADOOP集群安装指引是使用网上的一些资料,通过自已的实践,然后整理得出。 Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。 注意:这里只指引如何简单直接的搭建成功HADOOP集群,更多配置可根据自身需要参考相关文档 ...

2015-02-05 17:11:16

阅读数 551

评论数 0

map和reduce 个数的设定 (Hive优化)经典

一、    控制hive任务中的map数:  1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。  主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;...

2014-04-15 16:25:46

阅读数 504

评论数 0

Hadoop fs命令

最近使用hive做一些etl工作,除了日常sql的编写,了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要,一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令:(hadoop fs -help列出全部) 1,hadoop fs –fs [local ...

2014-03-28 08:08:52

阅读数 466

评论数 0

zookeeper信息查看工具

公司很多产品会使用zookeeper,比如Meta消息中间件,在测试的过程中,我们经常需要查询zookeeper里面的信息来精确定位问题。目前项目中有开发团队自己写的浏览器node-zk-browser,是基于node.js的express.js框架和node-zookeeper客户端实现的,具体...

2013-10-30 15:18:22

阅读数 12563

评论数 0

mapreduce程序设计---从xml中读取参数的方法

在主函数当中通过 Public class configurationPrinter extends Configured implements Tool{ Static{ Configuration.addDefaultResource("hdfs-default.xml...

2013-08-13 17:28:02

阅读数 1392

评论数 0

[Hadoop源码解读](五)MapReduce篇之Writable相关类

前面讲了InputFormat,就顺便讲一下Writable的东西吧,本来应当是放在HDFS中的。   当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节流转换为对象,就要进行反序列化。Writable是Hadoop的序列化格式,Hadoop定义了...

2013-08-13 17:26:36

阅读数 537

评论数 0

[Hadoop源码解读](四)MapReduce篇之Counter相关类

当我们定义一个Counter时,我们首先要定义一枚举类型: [html] view plaincopyprint? public static enum MY_COUNTER{     CORRUPTED_DATA_COUNTER,     NORMAL_DATA_COUNTER...

2013-08-13 17:25:38

阅读数 661

评论数 0

[Hadoop源码解读](三)MapReduce篇之Job类

下面,我们只涉及MapReduce 1,而不涉及YARN。                                              当我们在写MapReduce程序的时候,通常,在main函数里,我们会像下面这样做。建立一个Job对象,设置它的JobName,然后配置输...

2013-08-13 17:24:53

阅读数 575

评论数 0

[Hadoop源码解读](二)MapReduce篇之Mapper类

前面在讲InputFormat的时候,讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的。   这一篇里,开始对Mapper.class的子类进行解读。   先回忆一下。Mapper有setup(),map(),cleanup()和run()四个方法...

2013-08-13 17:23:36

阅读数 627

评论数 0

[Hadoop源码解读](一)MapReduce篇之InputFormat

平时我们写MapReduce程序的时候,在设置输入格式的时候,总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class);来保证输入文件按照我们想要的格式被读取。所有的输入格式都继承于InputFormat,这是一个抽象类,其子类有专门...

2013-08-13 17:21:01

阅读数 880

评论数 0

MapReduce的输入输出格式

默认的mapper是IdentityMapper,默认的reducer是IdentityReducer,它们将输入的键和值原封不动地写到输出中。 默认的partitioner是HashPartitinoer,它根据每条记录的键进行哈希操作来分区。 输入文件:文件是Map...

2013-08-08 15:45:43

阅读数 586

评论数 0

分布式服务框架 Zookeeper -- 管理分布式环境中的数据

安装和配置详解 本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置...

2013-07-31 11:18:40

阅读数 619

评论数 0

hadoop 一些使用上的记录(ATCO)

1、启用多线程运行map //设置MAP处理类为MutithreadedMapper job.setMapperClass(MutithreadedMapper.class); //设置MutithreadedMapper的线程数(建议使用配置) MultithreadedMapper.setNu...

2013-07-05 15:11:24

阅读数 1559

评论数 0

在mapreduce任务中使用distributedCache

背景:在使用mapreduce时,各个map之间需要共享一些信息。如果信息不大,可以保存在conf中。但是需求是在各个map之间共享文件或者tar包 使用distributedCache可以满足这个需求: distributedCache可以把HDFS上的文件(数据文件、压...

2013-06-19 18:26:04

阅读数 1029

评论数 0

使用java api操作Hadoop文件

. 概述  hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中,这些api能够支持的操作包含:打开文件,读写文件,删除文件等。 hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。...

2013-06-17 11:23:25

阅读数 625

评论数 0

Hadoop,MapReduce,JOB参数

下面介绍MapReduce的主要的六个类,只有了解了这六个类的作用,才能在编写程序中知道哪个类是要自己实现,哪些类可以调用默认的类,才能真正的做到游刃有余,关于需要自己编写的类(用户制定类)可以参考:http://www.cnblogs.com/liqizhou/archive/2012/05/1...

2013-04-22 15:27:30

阅读数 592

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭