基于hadoop框架进行数据处理与分析的应用程序的开发


学习目的:掌握基于hadoop框架进行数据处理与分析的应用程序的开发
HDFS分布式文件存储系统
hdfs里面数据都是一块一块存储的

主从模式
一个N节点多个D节点
NameNode 管理文件系统的命名空间,管理目录,记录每个文件各个数据块节点的信息
DateNode 工作阶段 储存并检索数据块,把数据库列表发送给NameNode

注意:不适合并发写入,不支持文件随机修改,不支持随机读等低延时的访问方式

问题1:namenode容错机制?挂掉了怎么办?
2.0版本有两个namenode,一个主节点,一个secondary namenode节点,snn节点定期同步nn节点内容,主节点挂掉就转正

问题2:数据块的大小怎么设置?
设置过小,消耗内存,查找速度慢
设置过大,并行性能不好,重启时恢复需要更多时间

实例:一份数据要存储到服务器上(写流程)
客户端向NN发出请求,NN检查自身的文件目录,发现DN1,DN2,DN3有空间可存,然后返回信息给客户端
客户端根据数据块大小把文件分为两个数据块,文件1,文件2
       把文件1+NN返回信息发送给DN1,DN1再发送给DN2,DN2发送给DN3
存完文件1,再存文件2

DN1,DN2,DN3发信息给NN,告诉他存完文件1和2了

其实NN分配给客户端的是DN1,DN2和DN3执行的是副本备份


客户端取文件(读流程)
客户端发请求给NN,NN返回节点信息,文件在DN1,DN2,DN3,客户端向最近DN1发请求取回文件1,向最近DN2发请求取回文件2
若DN2挂,则客户端向DN3取文件2
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值