hadoop
我叫阿狸猫
这个作者很懒,什么都没留下…
展开
-
hadoop命令行中自定义计数器
public class MyReducer extends Reducer { protected void reduce(Text k2, Iterable v2s, Context context) throws IOException, InterruptedException { /** * 自定义计数器 * 当key值出现hello时,就加1 *原创 2013-12-22 23:36:49 · 1167 阅读 · 1 评论 -
用JAVA的API操作HBASE
import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.原创 2014-01-05 01:12:50 · 981 阅读 · 0 评论 -
HBASE的SHELL命令操作
1.创建表:create '表名称', '列族名称1','列族名称2','列族名称N'create 'users','user_id','address','info'2.查看一共有哪些表:list3.查看表结构:describe '表名'describe 'user'4.删除表:先将表失效disable '表名',再删除表drop '表名disable 'users'drop原创 2014-01-04 23:33:09 · 1016 阅读 · 0 评论 -
用java的api将数据从HDFS上存到HBASE中
import java.text.SimpleDateFormat;import java.util.Date;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.mapreduce.TableOutputF原创 2014-01-05 02:31:28 · 2669 阅读 · 0 评论 -
org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed setting up proxy to /10.10.11.184:6
偶然一次停电,导致机房机器重启,于是很多机器静态IP冲突失效。好不容易把网络调整好,Hbase集群却无法正常启动,Hadoop却可以正常使用。大致情况如下:正常启动Hadoop和zookeeper,然后启动Hbase,jps查看一切正常。当打开web页面(60010)查看的时候却出现500错误,错误大致如下:HTTP ERROR: 500Trying to contac转载 2014-01-05 13:56:09 · 4143 阅读 · 0 评论 -
HADOOP的伪分布搭建
1.hadoop的伪分布安装1.1 设置ip地址执行命令 service network restart验证: ifconfig1.2 关闭防火墙执行命令 service iptables stop验证: service iptables status1.3 关闭防火墙的自动运行执行命令 chkconfig iptables off验证: chkconfig -原创 2014-01-05 14:35:27 · 870 阅读 · 0 评论 -
Flume
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。3.agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、spooling d原创 2014-01-08 22:21:48 · 1049 阅读 · 0 评论 -
SQOOP
SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中SQOOP安装1.加压:tar -zxvf sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz 重命名2.设置环境变量:原创 2014-01-06 20:24:52 · 1912 阅读 · 0 评论 -
将hadoop程序打成jar包,在linux下以命令行方式运行(例如单词计算程序)
自定义Mapperimport java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;/** * Mapper(指的是泛型) * KEYIN 即k1原创 2013-12-22 22:59:28 · 3246 阅读 · 0 评论 -
HIVE
1.Hive1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。原创 2014-01-06 13:55:41 · 1095 阅读 · 0 评论 -
HBASE伪分布搭建
1.HBase的伪分布1.1 在hadoop1上解压缩、重命名、设置环境变量HBASE_HOME 解压tar -zxvf hbase-0.94.7-security.tar.gz 重命名 mv hbase-0.94.7-security hbase 设置环境变量 export HBASE_HOME=/usr/local/hbase原创 2014-01-05 14:44:41 · 878 阅读 · 0 评论 -
HADOOP集群搭建
1.hadoop的分布式安装过程1.1 分布结构 主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker1.2 各节点重新产生ssh加密文件1.3 编辑各个节点的/etc/hosts,在该文件中含有所有节点的ip与hostname的映射原创 2014-01-05 14:37:53 · 784 阅读 · 0 评论 -
HADOOP的PIG框架
Pig框架简介1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MapReduce来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。3.Pig基本数据类型:int、long、float、double、chararry、bytearray原创 2014-01-05 16:51:34 · 1832 阅读 · 0 评论 -
HBASE集群搭建
1.hbase的集群搭建过程(在原来的hadoop1上的hbase伪分布基础上进行搭建)1.1 集群结构,主节点(hmaster)是hadoop1,从节点(region server)是hadoop2和hadoop31.2 修改hadoop1上的hbase的几个文件 (1)修改hbase-env.sh的最后一行export HBASE_MANAGES_ZK=false原创 2014-01-05 14:46:25 · 758 阅读 · 0 评论 -
ZooKeeper集群搭建
1.ZooKeeper1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。2.如何搭建ZooKeeper服务器集群 2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。 2.2 在hadoop0的/usr/local目录下 解压缩tar -zxvf zookeeper-3.4.5.ta原创 2014-01-05 14:41:48 · 840 阅读 · 0 评论 -
hadoop安全模式(rm: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /sort. Name )
rm: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /sort. Name node is in safe mode.这个异常表示hadoop处于安全状态,而你又对它进行了上传,修改,删除文件的操作。刚启动完hadoop的时候,hadoop会进入安全模式,此时不能对hdfs进行上原创 2014-01-02 12:52:28 · 4954 阅读 · 0 评论 -
hadoop算法(100万个数字取最大值)
Mapimport org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;public class MyMapper extends Ma原创 2014-01-01 23:41:24 · 2403 阅读 · 0 评论 -
hadoop自定义分组 步骤1.4
将如下数字,分组后找出每一行最小的value3 22 23 11 13 33 12 1--------------------------------------------112131Mapperimport or原创 2014-01-01 21:53:00 · 811 阅读 · 0 评论 -
hadoop自定义排序 步骤1.4
将如下数字,以第一行升序,如果第一行相同以第二行升序的方式排序。3 22 23 11 13 33 12 1--------------------------------------------1 12 12 23原创 2014-01-01 18:46:46 · 759 阅读 · 0 评论 -
hadoop命令行中自定义计数器
/** * 缩进较短的称为计数器组 * 缩进较长的称为计数器组下的计数器*/hello youhello meCounters: 19 File Output Format Counters Bytes Written=19 //写出去多少字节 FileSystemCounters //包含HDFS系统文件 (所以略) FIL原创 2013-12-31 14:11:30 · 742 阅读 · 0 评论 -
hadoop自定义分区操作(Partitioner) 步骤1.3
基于统计移动设备上网流量例子:MyMapperimport org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;public class MyMapper extends Mapper { protected v原创 2014-01-01 16:01:55 · 1240 阅读 · 0 评论 -
hadoop介绍
1.hadoop的核心分为(1)HDFS:Hadoop Distributed File System分布式文件系统(2)MapReduce:并行计算框架。2.HDFS的架构主从结构: 主节点,只有一个:namenode 从节点,有很多个:datanodesnamenode负责: 接收用户操作请求原创 2013-12-17 23:53:30 · 708 阅读 · 0 评论 -
hadoop的规约操作Combiner(规约) 步骤1.5
问:为什么使用Combiner?答:Combiner发生在Map端,对数据进行规约处理,数据量变小了,传送到reduce端的数据量变小了,传输时间变短,作业的整体时间变短。问:为什么Combiner不作为MapperReduce运行的标配,而是可选步骤呢?答:因为不是所有的算法都适合使用Combiner处理,例如求平均数。问:Combiner本身已经执行了reduc原创 2013-12-31 14:36:40 · 1405 阅读 · 0 评论 -
hadoop老API(基于统计单词数的例子)
Mapper类import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapred.MapReduceBase;import org.apache.hadoop.mapred.Mapper;原创 2013-12-31 11:03:04 · 806 阅读 · 0 评论 -
Linux常用命令
1.pwd:显示当前路径2.cd:切换目录 一个. (当前目录) 两个..(上级目录) ~(根目录)3.ls:显示文件和文件夹4.ls -l显示详细信息5.ls -a 显示全部,包括隐藏文件和文件夹6.mkdir:在当前目录下创建文件夹7.mkdir -p递归创建文件夹 例如d1/d2/d3/d4/d58.touch:创建空白文件9.echo:显示一个原创 2013-12-13 23:57:06 · 889 阅读 · 0 评论 -
HBASE基本知识
1.HBase(NoSQL)的数据模型1.1 表(table),是存储管理数据的。1.2 行键(row key),类似于MySQL中的主键。 行键是HBase表天然自带的。1.3 列族(column family),列的集合。 HBase中列族是需要在定义表时指定的,列是在插入记录时动态增加的。HBase表中的数据,每个列族单独一个文件。1.4 时间戳(ti原创 2014-01-03 11:53:14 · 1132 阅读 · 0 评论 -
hadoop中job提交的源码分析
下面这幅图说明了new JobClient()的时候,完成了连接到服务端,并且获得一个服务端的代理对象操作。服务端就是JobTracker,因为这个类是用来接收客户端提交的计算任务。第三幅图con.get("mapred.job.tracker","local")表示从配置文件中读取name为mapred.job.tracker的属性,如果属性读取不到则默认为local这个配置文件是cd原创 2013-12-20 00:25:23 · 900 阅读 · 0 评论 -
java基本类型与Hadoop常见基本类型的对照
JAVA HADOOPLong LongWritableInteger IntWritableBoolean BooleanWritableString Text问:java类型如何转化为hadoop基本类型?答:调用hadoop类型的构造方法,或者调用set()方法。new LongWritable(123L);问:ha原创 2013-12-20 15:08:19 · 1099 阅读 · 0 评论 -
Hadoop Reducer类中的reduce方法不执行的原因
Reducer类中的reduce方法覆写时需要注意:Eclipse快捷键覆写这个方法的时候,Context的类型是org.apache.hadoop.mapreduce.Reducer.Context,而如果去掉@Override标签,就不会报错误,直接导致reduce这个方法就不会调用了,正确的应该如下图原创 2013-12-19 22:21:58 · 4782 阅读 · 0 评论 -
hadoop的map和reduce任务的执行步骤
一共8个步骤:1. map任务处理1.1 读取hdfs中的文件。每一行解析成一个。(每一个键值对调用一次map函数)1.2 覆盖map(),接收1.1产生的,进行处理,转换为新的输出1.3 对1.2输出的进行分区。默认分为1个区。1.4 对不同分区中的数据进行排序(按照k)、分组。分组指的是相同key的value放到一个集合中。1.5 (可选)对分组后的数据进行规约原创 2013-12-22 14:45:29 · 2869 阅读 · 0 评论