Hadoop学习笔记(2)

NameNode
    内存
    本地磁盘
        fsimage
        edits
    格式化HDFS,目的就是生成fsimage
    0->format
    1->fsimage
    2->start namenode
        read fsimage
    3->start datanode
        注册
        block report
    -------------------------------------
    4->create dir /user/zhangbk/tmp  ->write [edits]
    5->put files /user/zhangbk/tmp     ->write [edits]
    6->delete file /user/zhangbk/tmp/test.txt  ->write [edits]
    
    第二次启动HDFS
    1.namenode
        read [fsimage]
        read [edits]
        gen write fsimage [new]
        gen edits [null]
    2->start namenode
        read fsimage
    3->start datanode
        注册
        block report    
        
SecondaryNameNode
    辅助namenode
    本地磁盘
        fsimage
        edits
        合并 -> new fsimage        
        
安全模式safemode
    等待datanode向它发送block report
    datanodes blocks/total blocks = 99.999% 此时安全模式才会退出
 操作:
    查看文件系统的文件
    不能改变文件系统的命名空间
        创建文件夹
        上传文件
        删除文件
        
    手动进入安全模式
    bin/hdfs dfsadmin -safemode enter 启动
    hdfs dfsadmin -safemode leave 关闭

MapReduce
    思想:分而治之
        map 对每一部分数据进行处理
        reduce 合并所有的结果集

input -> map -> reduce -> output
数据传输的流通格式:<key,value>

map -> shuffle -> reduce
分组group
        将相同的key的value合并在一起,放到一个集合中。
         <hadoop,1>
                      ->   <hadoop,list(1,1)>
         <hadoop,1>

mapreduce运行模式
    本地模式
    yarn

NameNode 全权的管理数据块的复制
DataNode
        心跳
        块的报告
一个数据块在DataNode以文件存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,
块数据的校验和,以及时间戳。
DataNode会定期向namenode上报块的信息。

Map Reduce数据类型
    long   -> LongWritable
    Int    -> IntWritable
    String -> Text
排序
    <key, value>
    依据key比较
    
过程
    step1:input
        InputFormat 读取数据,转换成<key,value>
        FileInputFormat
            TextInputFormat
    step2:map
        Mapper
            map(KEYIN, VALUEIN, KEYOUT, VALUEOUT)
            默认情况下KEYIN:LongWritable
                                VALUEIN:Text
    step3:shuffle
        process map,output<key,value>
                                memory
                                spill,溢写到磁盘,可能有很多文件
                                    分区partition
                                    排序sort
                        很多小文件,spill
                            合并,merge
                            排序
                            大文件
    step4:Reduce


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值