大数据概况及Hadoop生态系统
一.什么是大数据
大数据是指无法在一定时间内使用常规软件工具对其进行内容的抓取,管理和处理的数据集合
二.大数据特征(4V)
(1)大数据量:90%的数据是过去两年产生
(2)速度快:数据增长速度快,时效性高
(3)多样化:数据汇总类和来源多样
(4)价值密度低:需挖掘获取数据价值
固有特征: 时效性和不可变性
三.Hadoop
Hadoop是一个开源分布式系统架构
分布式文件系统HDFS–解决大数据的存储
分布式计算框架MapReduce–解决大数据计算
分布式资源管理系统YARN
四.Zookeeper
五.Hadoop架构
六.HDFS特点
七.HDFS命令行
创建存放数据文件的目录
hdfs dfs -mkdir /hdfs/shell
hdfs dfs -ls /hdfs/shell
将通讯数据上传到HDFS并查看
hdfs dfs -put 路径
hdfs dfs -text 路径
下载文件到本地
hdfs dfs -get 路径
统计目录下文件大小
hdfs dfs -du 路径
删除移动数据文件和目录
hdfs dfs -rm 路径
hdfs dfs -rmr 路径 rmr递归删除目录下所有的子目录和文件