hadoop
ATCO
我很懒,随便留下几个字。
展开
-
HADOOP SHELL 官方文档
FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定的默认sch转载 2013-01-31 14:09:33 · 676 阅读 · 0 评论 -
[Hadoop源码解读](四)MapReduce篇之Counter相关类
当我们定义一个Counter时,我们首先要定义一枚举类型:[html] view plaincopyprint?public static enum MY_COUNTER{ CORRUPTED_DATA_COUNTER, NORMAL_DATA_COUNTER }; 然后,我们就可以在mapper或reduce转载 2013-08-13 17:25:38 · 763 阅读 · 0 评论 -
[Hadoop源码解读](五)MapReduce篇之Writable相关类
前面讲了InputFormat,就顺便讲一下Writable的东西吧,本来应当是放在HDFS中的。 当要在进程间传递对象或持久化对象的时候,就需要序列化对象成字节流,反之当要将接收到或从磁盘读取的字节流转换为对象,就要进行反序列化。Writable是Hadoop的序列化格式,Hadoop定义了这样一个Writable接口。[html] view plaincopyprint?转载 2013-08-13 17:26:36 · 625 阅读 · 0 评论 -
zookeeper信息查看工具
公司很多产品会使用zookeeper,比如Meta消息中间件,在测试的过程中,我们经常需要查询zookeeper里面的信息来精确定位问题。目前项目中有开发团队自己写的浏览器node-zk-browser,是基于node.js的express.js框架和node-zookeeper客户端实现的,具体可参考https://github.com/killme2008/node-zk-browser.转载 2013-10-30 15:18:22 · 13218 阅读 · 1 评论 -
Hadoop fs命令
最近使用hive做一些etl工作,除了日常sql的编写,了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要,一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令:(hadoop fs -help列出全部)1,hadoop fs –fs [local | ]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:had转载 2014-03-28 08:08:52 · 590 阅读 · 0 评论 -
map和reduce 个数的设定 (Hive优化)经典
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有转载 2014-04-15 16:25:46 · 608 阅读 · 0 评论 -
MapReduc操作HBase
本文来自:http://qa.taobao.com/?p=13914实例分析本文通过实例分析演示了使用MapReduce分析HBase的数据,需要注意的这只是一种常规的方式(分析表中的数据存到另外的表中),实际上不局限于此,不过其他方式跟此类似。blog例子来进行示例分析,业务需求是这样:找到具有相同兴趣的人,我们简单定义为如果author之间article的tag相同,则认为两者转载 2012-11-12 11:12:45 · 648 阅读 · 0 评论 -
ZOOKEEPER安装配置
Zookeeper的安装和配置十分简单, 既可以配置成单机模式, 也可以配置成集群模式. 下面将分别进行介绍.单机模式点击这里下载zookeeper的安装包之后, 解压到合适目录. 进入zookeeper目录下的conf子目录, 创建zoo.cfg:Bash代码 tickTime=2000 dataDir=/Users/apple/zooke转载 2015-02-06 11:41:20 · 552 阅读 · 0 评论 -
HADOOP 集群安装
这里的HADOOP集群安装指引是使用网上的一些资料,通过自已的实践,然后整理得出。Hadoop是指Hadoop Common,主要提供DFS(分布式文件存储)与Map/Reduce的核心功能。注意:这里只指引如何简单直接的搭建成功HADOOP集群,更多配置可根据自身需要参考相关文档集群安装安装环境:LINUX安装版本:hadoop1.0.4原创 2015-02-05 17:11:16 · 747 阅读 · 0 评论 -
hadoop安装配置之ssh无密码登陆
hadoop安装配置之ssh无密码登陆 os:redhat 6 hadoop 两个节点,一个master 一个slave 192.168.0.1 master 192.168.0.2. slave 1.修改每台机器的/etc/hosts,增加192.168.0.1 master 192.168.0.2. slave 2.在每台机器上创建用转载 2015-03-23 17:46:59 · 931 阅读 · 0 评论 -
Hive安装及使用攻略
前言Hive是Hadoop一个程序接口,Hive让数据分析人员快速上手,Hive使用了类SQL的语法,Hive让JAVA的世界变得简单而轻巧,Hive让Hadoop普及到了程序员以外的人。从Hive开始,让分析师们也能玩转大数据。目录Hive的安装Hive的基本使用:CRUDHive交互式模式数据导入数据导出Hive查询HiveQLHiv转载 2015-04-02 17:25:40 · 777 阅读 · 0 评论 -
[Hadoop源码解读](二)MapReduce篇之Mapper类
前面在讲InputFormat的时候,讲到了Mapper类是如何利用RecordReader来读取InputSplit中的K-V对的。 这一篇里,开始对Mapper.class的子类进行解读。 先回忆一下。Mapper有setup(),map(),cleanup()和run()四个方法。其中setup()一般是用来进行一些map()前的准备工作,map()则一般承担主要的处理工转载 2013-08-13 17:23:36 · 721 阅读 · 0 评论 -
[Hadoop源码解读](三)MapReduce篇之Job类
下面,我们只涉及MapReduce 1,而不涉及YARN。 当我们在写MapReduce程序的时候,通常,在main函数里,我们会像下面这样做。建立一个Job对象,设置它的JobName,然后配置输入输出路径,设置我们的Mapper类和Reducer类,设置InputFormat和正确转载 2013-08-13 17:24:53 · 678 阅读 · 0 评论 -
hadoop常用命令
启动Hadoop进入HADOOP_HOME目录。执行sh bin/start-all.sh关闭Hadoop进入HADOOP_HOME目录。执行sh bin/stop-all.sh 1、查看指定目录下内容hadoop dfs –ls [文件目录]eg: hadoop dfs –ls /user/wangkai.pt2、打转载 2013-01-31 10:45:31 · 884 阅读 · 0 评论 -
简单的MapReduce例子,从一批数据中获取每年的最高温度
样例数据只有年份和温度,用MapReduce来取每年的最高温度。/* MaxTemperature.java */import java.io.IOException;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.*;import org.apache.hadoop.mapreduce.*;转载 2013-04-22 15:15:41 · 1412 阅读 · 0 评论 -
Hadoop,MapReduce,JOB参数
下面介绍MapReduce的主要的六个类,只有了解了这六个类的作用,才能在编写程序中知道哪个类是要自己实现,哪些类可以调用默认的类,才能真正的做到游刃有余,关于需要自己编写的类(用户制定类)可以参考:http://www.cnblogs.com/liqizhou/archive/2012/05/14/2499498.html InputFormat类。该类的作用是将输入的文件和数据分割转载 2013-04-22 15:27:30 · 680 阅读 · 0 评论 -
使用java api操作Hadoop文件
. 概述 hadoop中关于文件操作类基本上全部是在org.apache.hadoop.fs包中,这些api能够支持的操作包含:打开文件,读写文件,删除文件等。hadoop类库中最终面向用户提供的接口类是FileSystem,该类是个抽象类,只能通过来类的get方法得到具体类。get方法存在几个重载版本,常用的是这个:static FileSystem get(Conf转载 2013-06-17 11:23:25 · 791 阅读 · 0 评论 -
在mapreduce任务中使用distributedCache
背景:在使用mapreduce时,各个map之间需要共享一些信息。如果信息不大,可以保存在conf中。但是需求是在各个map之间共享文件或者tar包使用distributedCache可以满足这个需求:distributedCache可以把HDFS上的文件(数据文件、压缩文件等等)分发到各个执行task的节点。执行map或者reduce task的节点就可以在本地,直接转载 2013-06-19 18:26:04 · 1351 阅读 · 0 评论 -
hadoop 一些使用上的记录(ATCO)
1、启用多线程运行map//设置MAP处理类为MutithreadedMapperjob.setMapperClass(MutithreadedMapper.class);//设置MutithreadedMapper的线程数(建议使用配置)MultithreadedMapper.setNumberOfThreads(job,10)2、按行划分MAP,即实现输入文件按行划原创 2013-07-05 15:11:24 · 1744 阅读 · 0 评论 -
分布式服务框架 Zookeeper -- 管理分布式环境中的数据
安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。单机模式单机安装非常简单,只要获取到 Zookeeper 的压缩包并解压到某个目转载 2013-07-31 11:18:40 · 723 阅读 · 0 评论 -
MapReduce的输入输出格式
默认的mapper是IdentityMapper,默认的reducer是IdentityReducer,它们将输入的键和值原封不动地写到输出中。默认的partitioner是HashPartitinoer,它根据每条记录的键进行哈希操作来分区。输入文件:文件是MapReduce任务的数据的初始存储地。正常情况下,输入文件一般是存在HDFS里。这些文件的格式可以是任意转载 2013-08-08 15:45:43 · 724 阅读 · 0 评论 -
mapreduce程序设计---从xml中读取参数的方法
在主函数当中通过Public class configurationPrinter extends Configured implements Tool{Static{Configuration.addDefaultResource("hdfs-default.xml");Configuration addDefaultResource("hdfs-site.xml")转载 2013-08-13 17:28:02 · 1566 阅读 · 0 评论 -
[Hadoop源码解读](一)MapReduce篇之InputFormat
平时我们写MapReduce程序的时候,在设置输入格式的时候,总会调用形如job.setInputFormatClass(KeyValueTextInputFormat.class);来保证输入文件按照我们想要的格式被读取。所有的输入格式都继承于InputFormat,这是一个抽象类,其子类有专门用于读取普通文件的FileInputFormat,用来读取数据库的DBInputFormat等等。转载 2013-08-13 17:21:01 · 969 阅读 · 0 评论 -
Hadoop运维记录系列【收集整理】
网上搜集集群里面有三台服务器需要升级CPU。不多不少,恰恰是三台,符合Hadoop集群配置的replication数量。运维人员没有沟通,通知了一下,然后就瞬间停了3台服务器。这下坏了,整个集群基本就废了。存数据当然没问题,但是查数完全不能查了。之后留守的数据组人员就发现集群无论如何也起不来了,只能打电话把我叫回来。检查三台服务器无法启动的原因,其实起来了两台datan转载 2015-04-01 16:15:46 · 1431 阅读 · 0 评论