Hadoop大数据
文章平均质量分 89
LIUXUN1993728
这个作者很懒,什么都没留下…
展开
-
Hadoop详解(五)——ZooKeeper详解,ZooKeeper伪分布搭建和集群搭建,Hadoop集群搭建,sqoop工具的使用
ZooKeeper简介什么是ZooKeeper?ZooKeeper是Google的Chubby一个开源的实现,是Hadoop分布式协调服务。它包含了一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命令服务等。它的结构图如下:ZooKeeper集群搭建的要求:必须要有奇数台。如果想让ZooKeeper既具有高效性,又能正常工作,只要需要3台的ZooKeeper集群。ZooKeepe原创 2017-09-04 11:24:22 · 2840 阅读 · 0 评论 -
Hadoop详解(六)——HBASE原理、HBASE的集群安装、常用命令和Java接口
HBASE简介HBASE是bigtable的开源山寨版本。是建立在HDFS基础之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join)等复杂操作。主要用来存储非结构化和半结构化的松散数据。与Hadoop一样,HBASE目标主要依靠横向扩展,通原创 2017-09-04 23:18:52 · 1420 阅读 · 0 评论 -
Hadoop详解(七)——Hive的原理和安装配置和UDF,flume的安装和配置以及简单使用,flume+hive+Hadoop进行日志处理
hive简介什么是hive?① hive是建立在Hadoop上的数据仓库基础架构。它提供了一系列的工具,可以用来进行数据提取转换加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive定义了简单的类似于SQL的查询语言称为QL,它允许熟悉SQL的用户查询数据。同时这种语言也允许熟悉MapReduce的开发者进行开发自定义的mapper和reducer来处理内建的原创 2017-09-05 21:33:21 · 2979 阅读 · 0 评论 -
Hadoop详解(一)——大数据和Hadoop的简介、Hadoop伪分布式的安装步骤
Hadoop是什么?官方解释是:What Is Apache Hadoop?The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.Hadoop是一个开源,可靠,可扩展的分布式计算软件。Hadoop用于解决以下问题:海量数据的存储(HDFS)海量数据的分析(MapReduce)资源管理调度(YARN)原创 2017-08-31 12:04:25 · 3960 阅读 · 0 评论 -
Hadoop详解(二)——HDFS的命令,执行过程,Java接口,原理详解。RPC机制
HDFS是Hadoop的一大核心,关于HDFS需要掌握的有:分布式系统与HDFS、HDFS的体系架构和基本概念、HDFS的shell操作、Java接口以及常用的API、Hadoop的RPC机制、远程debugDistributed File System数据量越来越多,在一个操作系统管理的范围存储不了,那么就需要分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多原创 2017-09-01 00:00:37 · 3652 阅读 · 0 评论 -
Hadoop详解(三)——MapReduce原理和执行过程,远程Debug,Writable序列化接口,MapReduce程序编写
MapReduce概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。MR由两个阶段组成:Map和Reduce,用户只需要实现map()和Reduce()两个函数,即可实现分布式计算。这两个函数的形参是key、Value对,表示函数的输入信息。MapReduce的老大是JobTracker 小弟叫TaskTracker相当于小组长 执行具体任务原创 2017-09-02 10:17:28 · 6118 阅读 · 0 评论 -
Hadoop详解(四)——Shuffle原理,Partitioner分区原理,Combiner编程,常见的MR算法
Partitioner编程Partition简介shuffle是通过分区partitioner 分配给Reduce的 一个Reducer对应一个记录文件Partitioner是shuffle的一部分partitioner执行时机:在mapper执行完成,Reducer还没有执行的时候,mapper的输出就是partitioner的输入 即partitioner 分区主要是用来提高效率的 例如从全国原创 2017-09-02 15:34:25 · 8222 阅读 · 1 评论