1,大数据技术解决的主要是海量数据的存储和计算。
hadoop分为广义和狭义之分:
狭义的hadoop指的是一个框架,hadoop是由三部分组成:hdfs:分布式文件系统,作用是存储;mapreduce:分布式离线计算框架,作用:计算;yarn:资源调度框架;
广义的hadoop不仅仅包含了hadoop框架,还有一些辅助的框架,flume,sqoop,hive,hbase等,指的是一个生态圈。
2,大数据的定义:
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
3,大数据的特点:
IBM用“5V”来表示:大量(volume),多样性(variety),高速(velocity),低价值(value),真实(veracity)
1.高可靠性:它维护了多个工作副本,在出现故障的时可以对失败的节点进行重新分布式处理
2.高扩展性:可以扩展数以千计的节点
3.高效性:分而治之,并行处理数据,所以效率会高
4.高容错性:自动保存多个工作副本,可以自动将失败的任务重新分配。
4.hadoop组成:hdfs mapreduce yarn common(支持其他模块的工具模块:configuration,rpc,序列化,日志操作等)
5.hadoop简介:
- 2003年、2004年谷歌发表的两篇论文为大数据的存储和计算提供了可行的解决方案
- 发展演变关系:GFS —> HDFS,Google MapReduce —> Hadoop MapReduce ,BigTable —> HBase
- 2005年,Hadoop 作为Lucene的子项目Nutch的一部分引入Apache
- 2006年,Hadoop从Nutch剥离出来独立
- 2008年,Hadoop成为Apache的顶级项目
- Hadoop这个名字来源于Hadoop之父Doug Cutting儿子的毛绒玩具象
6.hadoop发行版本:apache hadoop,Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称“CDH”),Hortonworks版本(Hortonworks Data Platform,简称“HDP”)。
7.hadoop的优点就是上面说的它 的特点,这里说下它的缺点:
- 不适用于低延迟的数据访问
- 不能高效存储大量小文件
- 不支持多用户写入并修改文件
8.hdfs 分而治之:
HDFS:Master:管理和维护数据 Slave:负责存储文件数据块.
对于大数据进行切分,切割得到的数据块存放到slave中,每个slave可能会得到多个数据块。
获取文件过程:namenode中元数据记录了文件的块链表以及块所在的datanode节点信息,请求namenode中的块信息,分别下载并合并就得到之前的文件。
角色:nameNode(NN):负责存储文件的元数据信息,比如文件名,文件目录结构,文件属性以及文件的块列表和块所在的 dataNode等
secondaryNamenode(2NN):辅助nameNode,监控hdfs状态的后台辅助程序,每隔一段时间会获取hdfs的元数据快照
dataNode(DN):存储文件块数据,块数据的校验
NN,DN既是角色名称,也是进程名称也代指电脑节点
9.mapreduce:一个分布式的离线计算框架
分而治之思想:存储--》数据块 计算--》切分,切片 每个节点负责一个切片的计算