hadoop
文章平均质量分 87
wealon
执著!看准了就一往无前。。。。
展开
-
PIG入门
PIG入门★ PIG简介1:Pig是基于Hadoop的一个数据处理框架。 MapReduce是使用Java进行开发,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2:Pig的数据处理语言是数据流方式的。何为数据流?3:Pig的基本数据类型:int、long、float、double、chararry、bytearray Pig的复杂数据类型:原创 2014-12-14 13:25:01 · 884 阅读 · 0 评论 -
SQOOP入门
SQOOP入门★ SQOOP入门Sqoop提供的命令可以把RDMS管理的数据库中的数据导入到HDFS中或者Hive仓库中。 也提供了命令可以把HDFS中的数据导入到Mysql等REMS数据库中。 ★ SQOOP安装Sqoop依赖于Hadoop平台的Hdfs存储和MapReduce计算。所以,安装Sqoop之前,需要安装好Hadoop。1:解压、设置环境变量略。原创 2014-12-14 13:25:37 · 439 阅读 · 0 评论 -
Hadoop2.2源代码编译
1.安装虚拟机Centos环境略。我r原创 2014-08-09 18:56:49 · 454 阅读 · 0 评论 -
HBASE介绍
HBASE介绍★ HBASE基础Hbase中的每一张表,都是所谓的BigTable。RowKey和ColumnKey是二进制值数组。byte[]Timestamp是一个64位整数 什么可以作为RowKey?字符串、整数、二进制串甚至串行化的结构都可以作为行键。 Hbase中的列必须用列族ColumnFamily来定义。任意一列的表示方式是:==》列族:标签原创 2014-12-14 13:22:36 · 772 阅读 · 0 评论 -
MapReduce体系结构
MapReduce体系结构★ MapReduce的原理MapReduce是一种分布式的计算模型,用于解决大数据的计算问题。MapReduce由两阶段组成,即Map阶段和Reduce阶段,用户只需要实现map()与reduce()两个函数。 ★ MapReduce执行过程包括两大任务,如下Map任务和Reduce任务。▲ Map任务步骤:M1.读取输入文件的内容原创 2014-12-14 13:24:21 · 2107 阅读 · 0 评论 -
Hadoop体系结构
Hadoop体系结构★ Hadoop版本Apache官方版本ClouderaYahoo内部版本★ 两大核心HDFS 和 MapReduceHDFS是Hadoop File System Hadoop文件系统 它是一个分布式的文件系统MapReduce 并行的计算框架 数据来源于HDFS★ HDFS的架构它是一个主从结构的主结点:NameNo原创 2014-12-14 13:18:46 · 764 阅读 · 0 评论 -
Flume入门
Flume入门★ Flume入门Flume是一个分布式的日志收集系统。这里的日志可以是文本文件也可能是流式的文件。Flume的Agent是一个Java进程,运行在代理端。代理端即日志收集节点。Agent包含:Source ChannelSinkSource专用于收集日志,可以处理各种格式的日志数据。支持的文件格式:略Source收集到的数据,临时存储到Channel中。原创 2014-12-14 13:20:24 · 579 阅读 · 0 评论 -
Hadoop集群
Hadoop集群★ Hadoop集群搭建过程集群环境:集群环境是指局域网中的机器,多台机器为了完成同一件事情而协作工作的一种工作模式。每台机器被称为一个节点。 把Hadoop进程安装到多台机器上,实现Hadoop的分布式安装。 分布式以虚拟机vmware的复制来克隆多台机器。分布式集群中,对NameNode和SecondaryNameNode的要求比较高,对内存要求比较原创 2014-12-14 13:20:31 · 511 阅读 · 0 评论 -
HDFS体系结构
HDFS体系结构★ 分布式文件系统一种可以管理分布在不同机器上的文件的操作系统。因为,单一的一台机器上的存储已经不能满足需要。不同主机上的文件可以通过网络进行分享。也叫网络操作系统,即NFS。通过网络访问的文件,对用户和程序来说,如同本地一样。其中HDFS就是其中一种分布式操作系统。适合一次写入,多次读写的情况。★ HDFS 常用shell操作在Hadoop中通过shell命令访问原创 2014-12-14 13:22:35 · 961 阅读 · 0 评论 -
Hive体系介绍
Hive体系介绍★ Hive简介Hive是架构在Hadoop上的数据仓库架构。它提供了一系列的工具,可以用这些工具来进行ETL,即数据的提取转化加载。这是一种可以存储、查询和分析存储在Hadoop中HDFS中的大规模数据的机制。Hive定义了简单的类SQL语言,称为QL,也被称为HQL.Hive的工作原理就是将SQL语句默诵成MR Job然后在Hadoop上运行。Hive的表就原创 2014-12-14 13:23:30 · 539 阅读 · 0 评论 -
zookeeper介绍
zookeeper介绍★ 什么是zookeeperzookeeper 是 Google 的 Chubby一个开源的实现,是Hadoop 的分布式协调服务。zookeeper包含有一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 ★ zookeeper的角色大部分的分布式应用都需要一个主控、协调器或控制器来管理物理分布的子进程。zooke原创 2014-12-14 13:27:20 · 580 阅读 · 0 评论