大数据概念以及HDFS(10.9)

**

大数据:
短时间内快速的产生海量的****各种各样有价值的数据

大数据技术

分布式存储
分布式计算:

  • 分布式批处理:一段时间堆积的数据,然后在某个时间段来处理这批数据
  • 分布式流处理(实时处理):数据直接,每产生一条数据后立即进行处理,将结果推送给前端页面,存储到数据库中形成报表进行提交(例如:天猫大屏幕的实时数据显示,QQ实时在线人数统计)

机器学习:涉及多个学科领域,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径


分布式存储:
大数据存储信息的方式
分布式存储:即把大型数据分散存储在多台独立的设备上
存储单元:一个存储单元的数据,不能拆分为两部分进行存储
备份:解决数据安全的问题


HDFS存储示意图:
在这里插入图片描述
1.客户端要上传一个大文件,首先客户端要计算大文件分割的block数量, 大文件/128M=block数
2.client会向namedata汇报:
当前大文件的block数,当前大文件属于谁即权限,上传时间
for(Block block :blocks)(大文件切割出来的block){
3.client切割出一个个block
4.请求block会的id号以及地址
5.namedata掌握全局,管理所有dn,将负载不高的DN地址返回给client
6.client拿到地址,找到dn上去传输数据
7.DN将block存储完毕后,会向NN汇报当前的存储情况
}


NameNode的作用:
掌握全局,管理dn以及元数据
接收客户的读写服务
手机datanode汇报的block列表信息
保存metadata信息:文件owership和permissions
文件大小,上传时间
block列表,blockId
block副本位置(DN上报)
接收client的读请求,返回地址
DataNode作用:
存储block,像NN汇报发送心跳(3S,dn会向nn发送心跳,其中是自己的位置信息)
接收client的读请求


备份机制
1.第一个block存储在负载不是很高的一台服务器上
2.第一个备份存储在第一个block不同机架随机一台服务器上
3.第二个备份存储在与第一个备份相同的机架随机一台服务器上(一个机架有10台服务器)
在这里插入图片描述


client向DN写数据的流程:
在这里插入图片描述
上图特别关注:
在client把block进行存储时,是将block切割成了一个个packet64K,通过管道进行传输
可以实现并行存储

在HDFS中禁掉的功能:即在存储好数据后,不允许修改,不允许改变block的大小,可以追加


读操作:
在这里插入图片描述

  1. client访问NameNode,查询元数据信息,获得这个文件的数据块位置列表,返回输入流对象。
  2. 就近挑选一台datanode服务器,请求建立输入流 。
  3. DataNode向输入流中中写数据,以packet为单位来校验。
  4. 关闭输入流

数据的持久化:
为什么要进行持久化?
在这里插入图片描述
内存也不稳定,保证安全稳定,可以将数据持久化到磁盘上,也可以减负载
在这里插入图片描述
在此过程中,secondaryName会从Namenode中得到edits和fsimage,然后进行重演合并得到fsimage.cket推送给NAMENODE,nameNode得到后去掉后缀得到fsimage 合并机制(如果超过3600S,或ehits超过64M),在此期间,如果namemode有新的操作,会创建一个edits,new进行存储,后去掉后缀得到edits
一般合并发生在secondaryNameNode中,但NameNode也会执行合并,在安全模式的时候,仅此一次


安全模式:
1.加载faimage,加载到内存中
2.如果edits文件不为空,那么namenode自己来合并,仅此一次
3.检查DN的健康状况
4.有异常,指挥做备份
在安全模式中,如果faimage已经加载到内存中,可以查看文件目录,但无法读取内容


权限:依据linux用户系统

被禁掉的功能:HDFS集群不允许修改,文件一旦上传成功,不能修改block块大小,为了防止泛洪

一般一个block默认有两个副本


集群外提交:
第一个地址是负载不高点的DN,第二个是不同机架上的随机一台服务器,第三个与第二个同一个机架上的随机服务器
集群内提交:
第一个是当前节点,二三与上相同
在这里插入图片描述


搭建集群的三种模式:
1.伪分布:在体态服务器上,启动多个进程,分别表示各个角色,适用于测试和教学
2.完全分布式:在多台服务器上,每台服务器启动不同角色的进程,使用多台服务器组成集群
在这里插入图片描述
3.高可用的完全分布式:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值