初学大数据(主要介绍分布式存储)
1.什么是大数据?
短时间内快速产生海量的多种多样的有价值的数据
2.大数据中的技术
①分布式存储
②分布式计算(包含以下两种)
1)分布式批处理
攒一段时间的数据,然后在未来某个时间处理这批数据
2)分布式流处理
不需要攒数据,直接处理,每产生一条数据,立马对这条数据进行处理,将结果推送到前端页面存储到数据库中。(双11天猫大屏幕、QQ实时在线分布情况都属于分布式流处理。)
3.部分概念
元数据:描述数据的数据
机架:Rack,现实中放服务器的架子,一般情况下一个机架放10条服务器。
4.为什么要用到分布式存储与计算?
假设有一个10PB的文件需要存储并处理,单台服务器的内存资源与计算资源都无法满足需求。因此引入分布式存储与计算。
5.分布式存储(HDFS)的基本思想?
用户client需要存储并处理一个10PB文件,假设将其分布存储在6台服务器上(6个Datanode)。此时,为记录每台服务器都存了哪些资源,引入一个代理(Namenode)。代理解决如何存、往哪存,如何取、去哪取的问题。
过程:当client需要存一个资源时,询问Nameno