Hadoop 7days
qq_22772465
这个作者很懒,什么都没留下…
展开
-
Hadoop day1
question 1: what is apache hadoop?The apache hadoop project devlops open-source software for reliable , scalable, distributed computing.解决了什么样的问题:1:海量数据的存储(HDFS) 2:海量数据的分析(MapReduce)Hadoop的核心: ...原创 2018-04-15 15:57:27 · 102 阅读 · 0 评论 -
Hadoop7days-6 使用java接口操作HBase
//插入//插入1000000条数据//获取数据//查询数据范围,注意其查询结果,数据是按字典顺序存储的, 所以结果如下图//删除数据原创 2018-05-07 10:42:18 · 110 阅读 · 0 评论 -
Hadoop7days-6HBase理论知识
HBase的老大是HMaster,小弟是HRegionServer(类似于HDFS中的NodeManager,有多个,保证安全,通过Zookeeper进行协调),HBase数据存储的最小单元是region,Table 在行的方向上分割为多个HRegion,一个region由[startkey,endkey)表示,每个HRegion分散在不同的RegionServer中。HBase中有两张特殊的ta...原创 2018-05-07 09:09:51 · 111 阅读 · 0 评论 -
Hadoop7days-6 HBASE
HBase利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。HBase的几个必须知道的3个概念:1:Row Key(主键),是用来检索记录的主键,访问HBase table中的行,只有三种访问方式, A:通过单个Row Key 访问 B:通过Row Key的Range访问 C:全表扫...原创 2018-05-06 19:29:20 · 111 阅读 · 0 评论 -
Hadoop7days-5 ZooKeeper
Hadoop2.0中通常有两个NameNode,一个处于active状态,对外提供服务;另一个处于standby状态,仅同步active NameNode的状态,当active NameNode宕掉时,可以快速切换。Zookeeper是Hadoop的分布式协调服务,分布式应用程序可以基于zookeeper实现多种服务,比如同步服务,配置维护和命名服务等。我们以数据同步服务为例:最上面是一个ZooK...原创 2018-05-02 16:04:17 · 114 阅读 · 0 评论 -
Hadoop7days-4 MR实现倒排索引
实现倒排索引值得是:将位于不同文件里面的单词,统计出其在不同文件中出现的次数,结果应为“hello”,"a.txt->3,b.txt->2,c.txt->2"的形式。要达成这一目标,需要设置多个mapper和reducer类。可以使用倒退的方法,来确定各个mapper和reducer要实现的功能,其步骤如下:mapper 的输出是context.write("hell0->...原创 2018-04-27 16:01:21 · 206 阅读 · 0 评论 -
Hadoop7days-4 shuffle
Shuffle是MapReduce的心脏。如上图看到的,数据的流程是Map--->shuffle--->Reduce.但是,shuffle的具体过程是怎样的呢?MAP端: Map的输出并不是简单的写到磁盘,等待Reduce的获取。每一个map都有一个环形内存缓冲区,默认大小为100M,当其中的缓冲内容达到阈值(80%),后台线程便把其中的内容溢写到磁盘(在写磁盘过程中,map输出...原创 2018-04-27 09:55:53 · 126 阅读 · 0 评论 -
Hadoop7days-4 combiner
每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。注意:Combiner的输出是Reducer的输入,如果Combiner是可插拔的,添加Combiner绝不能改变最终的计算结果。所以Combiner只应该用于那种Reduce的输...原创 2018-04-27 09:00:00 · 122 阅读 · 0 评论 -
Hadoop7days-5 hadoop集群搭建
在hadoop2.0中,namenode抽象成nameservice服务,每个nameservice下有两个namenode节点(nameservice也可以横向扩展,提高了存储元数据的能力),其中一个namenode为active状态,另一个为standby状态。如下图所示。如上图所示,zookeeper可以控制两个namenode的状态的切换,每个namenode所在的主机上都有一个DFSZK...原创 2018-05-05 16:34:27 · 112 阅读 · 0 评论 -
Hadoop7days -7 flume
Flume是一个数据采集系统,从WebServer上采集数据后通过Agent存储到HDFS上。Agent分为三个组件Source(采集到的资源),Channel(管道,暂时存放采集到的数据),Sink(通过它将数据存储到HDFS中)。Flume不依赖与Hadoop,只要安装有jdk的机器都可以运行它。如下所示的配置文件配置了一个名为a4的Agent,这个配置文件监视a4.sources.r1.ty...原创 2018-05-08 20:29:16 · 246 阅读 · 0 评论 -
大数据大框架图
转载 2018-04-22 22:18:56 · 1428 阅读 · 0 评论 -
Hadoop day2-01HDFS文件系统和原理
HDFS原理:client相当于送货员,NameNode相当于仓库管理员,DataNode相当于各个仓库。client带来货物或者带走货物时,向NameNode询问可以使用的仓库DataNode,确定好DataNode 后,按块申请(Hadoop1.0时,每块block是64M,Hadoop2.0是默认128M),之后将数据依次按块写入到所申请的块,每写完一块就再申请一块(防止一次申请很多,但是出...原创 2018-04-15 16:02:39 · 126 阅读 · 0 评论 -
Hadoop7days -7Hive
* Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reduc...原创 2018-05-08 18:45:30 · 162 阅读 · 0 评论