今天来说一下Hadoop以及hdfs环境配置和搭建。
首先说一下Hadoop大数据的的4V特征:
Volume : (大数据量)90%的数据是过去两年产生
Velocity: (速度快) 数据增长速度快,时效性高
Variety: (多样化) 数据种类和来源多样化
结构化数据,半结构化数据,非结构化数据
Value: (价值密度低)需挖掘获取数据价值
Hadopp的三大核心
Hadoop是一个开源分布式系统架构
分布式文件系统HDFS——解决大数据储存
分布式计算框架MapReduce——解决大数据计算
分布式资源管理系统YARN
接下来演示一下HDFS的环境配置和搭建。
先下载cdh版本的压缩包放在linux虚拟机opt文件解压,这里我用的是2.6.0版本。
cd /opt/
[root@zj opt]# tar -zxf hadoop-2.6