一、大数据的相关概念:
(一)大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策更积极的资讯。
- 随着技术的不断发展,符合大数据标准的数据集容量也会增长
- 不同行业使用的软件和数据集可能差别较大
- 大数据在今天不同行业的范围可以从十几TB到几PB
(二)大数据的四个特点–4Vs
- 大量:数据量大,从TB级别跃升到PB级别
- 多样:数据类型繁多
- 非结构化:文本、图形、声音等
- 半结构化:日志
- 结构化数据:行列规整的表单数据
- 多结构化数据:以上三种类型混合的数据
- 高速:数据即时处理的速度
真实性和准确性:只有真实而准确的数据才能让对数据的管控和治理真的有意义
(三) Hadoop需要解决的问题
海量数据的存储(HDFS)
- 海量数据的分析(MapReduce)
资源管理调度(YARN)
问题:怎样解决海量数据的存储?
分布式文件系统的概念:(HDFS)
Hadoop分布式文件系统是一种适于在廉价硬件上的分布式文件系统
①HDFS是Apache Hadoop核心项目的一部分,例HBase,是在HDFS上构建的
②在HDFS文件系统中,一个文