Hadoop
十四少
这个作者很懒,什么都没留下…
展开
-
Hive
1.Hive 1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。转载 2015-04-26 10:12:03 · 274 阅读 · 0 评论 -
Hadoop的伪分布安装
1.hadoop的伪分布安装 1.1 设置ip地址 执行命令 service network restart 验证: ifconfig 1.2 关闭防火墙 执行命令 service iptables stop 验证: service iptables status 1.3 关闭防火墙的自动运行 执行命令 chkconfig iptables off 验证: chk转载 2015-04-26 10:24:19 · 349 阅读 · 0 评论 -
Hadoop的分布式安装和安全模式
1.hadoop的分布式安装过程 1.1 分布结构 主节点(1个,是hadoop0):NameNode、JobTracker、SecondaryNameNode 从节点(2个,是hadoop1、hadoop2):DataNode、TaskTracker 1.2 各节点重新产生ssh加密文件 1.3 编辑各个节点的/etc/hosts,在该文件中含有所有节点的ip与hostn转载 2015-04-26 10:27:32 · 404 阅读 · 0 评论 -
Hadoop2.2.0集群搭建(HA,联邦,yarn)
在这里我们选用4台机器进行示范,各台机器的职责如下表格所示 hadoop0 hadoop1 hadoop2 hadoop3 是NameNode吗? 是,属集群cluster1 是,属集群cluster1 是,属集群cluster2 是,属集群cluster2 是转载 2015-04-26 10:32:43 · 563 阅读 · 0 评论 -
Sqoop
SQOOP是用于对数据进行导入导出的。 (1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中 (2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中 1.把数据从mysql导入到hdfs(默认是/user/)中 sqoop import --connect jdbc:mysql://hadoop0:330转载 2015-04-26 10:20:01 · 294 阅读 · 0 评论 -
Pig
1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。 2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。 3.Pig基本数据类型:int、long、float、double、chararry、bytearray 复合数据类型:Map、Tuple、Ba转载 2015-04-26 10:09:14 · 408 阅读 · 0 评论 -
Flume
1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。 2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。 3.agent里面包含3个核心组件:source、channel、sink。 3.1 source组件是专用于收集日志的,可以处理各种类型各种格式的日志数据,包括avro、thrift、exec、jms、spooling d转载 2015-04-26 10:22:10 · 307 阅读 · 0 评论 -
ZooKeeper集群配置
1.ZooKeeper 1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致。 2.如何搭建ZooKeeper服务器集群 2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系统时间要保持一致。 2.2 在hadoop0的/usr/local目录下,解压缩zk....tar.gz,设置环境变量 2.3 在conf目录下,修改文件 mv zoo_sample.cfg转载 2015-04-26 10:01:27 · 205 阅读 · 0 评论 -
HBase
1.HBase(NoSQL)的数据模型 1.1 表(table),是存储管理数据的。 1.2 行键(row key),类似于MySQL中的主键。 行键是HBase表天然自带的。 1.3 列族(column family),列的集合。 HBase中列族是需要在定义表时指定的,列是在插入记录时动态增加的。 HBase表中的数据,每个列族单独一个文件。 1.4 时间戳(t转载 2015-04-26 10:04:44 · 282 阅读 · 0 评论