博客专栏  >  云计算/大数据   >  从零学习hadoop

从零学习hadoop

小编学习过一段时间hadoop后却因种种原因没有从事hadoop的工作,现在准备重新学习,把知识‘捡起来’坚持每天学一点,更新一篇博文,学习好并找到大数据的工作。希望大家一起互相学习。

关注
0 已关注
25篇博文
  • hadoop怎么分割写入的文件为多个块的,一个map对应一个split分片吗?split与block的关系

    1,在介绍hadoop写文件的时候我们经常会说首先分割文件为多个块;那么是怎么分割的呢?这里其实不要有过的纠结,这里的块是block,是hdfs中切块的大小,属于物理划分,默认64M,在hadoop-...

    2018-05-03 11:05
    80
  • Hadoop切分纯文本时对某一行跨两个分片这种情况的处理

    hdfs写入文件需要把大文件分割成多个块,那么有可能会把文件的某一个行分成在不同的块中;这是一个出现分块的时候。还有个就是我的上篇博文中说到的,在mapreduce处理时,当hdfs分块的block大...

    2018-05-03 11:14
    19
  • hadoop namenode热备切换过程和secondarynamenode的作用

    hadoop集群中一般有两个namenode,一个处于active激活状态,另一个处于StandBy状态,Active状态的NameNode负责集群中所有的客户端操作,这么设置的目的,其实HDFS底层...

    2018-05-03 12:39
    57
  • hadoop集群中zkfc的作用和工作过程

    作用:(1)健康检测:zkfc会周期性的向它监控的namenode(只有namenode才有zkfc进程,并且每个namenode各一个)发生健康探测命令,从而鉴定某个namenode是否处于正常工作...

    2018-05-03 14:08
    34
  • hdfs的八大安全和可靠策略总结和设计基础与目标

    hdfs 全称:Hadoop Distributed File System Hadoop分布式文件系统设计基础与目标:a: 硬件错误是常态。因此需要冗余 冗余对hadoop来说不是额外功能,而是本身...

    2018-05-03 15:50
    21
  • hadoop namenode的功能

    namenode节点非常的重要,它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata) a:管理文件系统的命名空间(最重要的工作)文...

    2018-05-03 15:57
    19
  • hadoop集群老的资源管理Mrv1与Yarn资源管理器的工作流程和对比

    MRv1缺点1、JobTracker容易存在单点故障2、JobTracker负担重,既要负责资源管理,又要进行作业调度;当需处理太多任务时,会造成过多的资源消耗。3、当mapreduce job非常多...

    2018-05-04 10:06
    19
  • Hadoop mapreduce过程key 和value分别存什么值

    转自:https://www.cnblogs.com/gaopeng527/p/5436820.html这里以wordCount为例,直接看图就懂了:(1)inputFormat将hdfs上要处理的文...

    2018-05-04 10:29
    104
  • hdfs常用操作命令

    先说一下"hadoop fs 和hadoop dfs的区别",看两本Hadoop书上各有用到,但效果一样,求证与网络发现下面一解释比较中肯。  粗略的讲,fs是个比较抽象的层面,在...

    2018-05-04 10:42
    20
  • Hadoop-Shuffle洗牌过程,与combine和partition的关系

    Shuffle的正常意思是洗牌或弄乱,是MapReduce的核心。下图展示了Shuffle包含的步骤:phase:阶段partitions:分开,隔离marge/combine:合并上图包含了整个ma...

    2018-05-04 16:49
    67
  • hadoop集群 secondary namenode 的作用,fsiamge和edit的关系

    首先secondary namenode不是namenode的备份,而是辅助namenode管理的,分担namenode的压力。 fsimage:filesystem image 的简写,文件镜像。二...

    2018-05-05 13:04
    18
  • hdfs读写文件过程

    文件参考:https://www.cnblogs.com/tgzhu/p/5788634.html以写入100M文件为例:Client将FileA按64M分块。分成两块,block1和Block2;C...

    2018-05-05 17:12
    43
  • hadoop集群启动步骤

    (1)启动三个机器的日志节点:xiaoye@ubuntu:~$ hadoop/sbin/hadoop-daemons.sh start jorunalnode(2)单独启动ubuntu的namenod...

    2018-05-05 18:28
    59
  • 第十二章 结合flume+mapreduce+hive+sqoop+mysql的综合实战练习

    第一部分:项目分析        我们要做的小项目是关于黑马训练营的日志分析项目,用到的日志文件大家可以到:http://download.csdn.net/detail/u012453843/968...

    2018-05-06 11:36
    74
  • 第十一章 :日志采集工具flume使用

    先我们来看一张图,如下所示,最上方代表三台设备,当然可以是更多的设备,每台设备运行过程都会产生一些log,这些log是我们需要的信息,我们不可能手动的一台一台的去收集这些log,那样的话太浪费人力了,...

    2018-04-07 20:40
    35
  • 第十章 :hbase集群搭建,测试

    一,在ubuntu主机上安装hbase,在上一章中我们已经在ubuntu3主机上安装了hbase,这里为了省事,直接远程复制到ubuntu主机上。xiaoye@ubuntu3:~$ lsapache-...

    2018-04-07 01:43
    44
  • 第九章 hbase原理和搭建部署

    接下来我们一块儿看一下HBase的几个概念,首先来看第一个概念:Row Key,如下图所示,Row Key顾名思义,就是把一行当做主键,由于HBase建立了索引,所以我们根据行号可以迅速定位的那一行,...

    2018-04-06 21:05
    33
  • 第八章:sqoop数据迁移工具

    qoop是专门用来迁移数据的,它可以把数据库中的数据迁移到HDFS文件系统,当然也可以从HDFS文件系统导回到数据库。      我来说一下Sqoop的使用场景,假如你们公司有个项目运行好长时间了,积...

    2018-04-06 16:29
    228
  • 第七章 :Hadoop+Zookeeper 3节点高可用集群搭建和原理解释

    一,原理先说一下Zookeeper在Hadoop集群的作用,以前我们学习Hadoop伪分布式的时候没有用到Zookeeper是因为伪分布式只有一个NameNode,没有Active和Standby状态...

    2018-04-02 14:37
    96
  • 第六章 zookeeper 原理,安装步骤,数据同步演示

    一,zookeeper原理:Zookeeper是Google的Chubby一个开源的实现,是Hadoop的分布式协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服...

    2018-03-28 19:28
    77
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部