什么是大数据?
字面意思理解:大量的数据,海量的数据
数据集的大小已经远远超过了现有普通数据库软件和工具的处理能力的数据
大数据有什么特点?
海量化
数据量大(多)
多样化
结构化数据,半结构化数据,和非结构化数据
快速化
数据的增长速度快
高价值
海量数据价值高
大数据能做什么?
1、海量数据快速查询
2、海量数据的存储(数据量大,单个大文件)
3、海量数据的快速计算(与传统的工具对比)
4、海量数据实时计算(立刻马上)
5、数据挖掘(挖掘以前没有发现的有价值的数据)
大数据技术为什么那么快?
1、传统的是纵向扩展
服务器数量不发生变化,配置越来越高(发生变化)
大数据横向扩展
配置不发生变化,服务器数量越来越多(发生变化)
2 传统的方式资源(cpu/内存/硬盘)集中
大数据方式资源(cpu/内存/硬盘)分布(前提:同等配置的前提下)
3 传统数据备份方式单份备份
大数据数据备份方式多分备份(数据复制,默认三个副本)
4 传统的计算模型是移动数据到程序端
大数据计算模型是移动程序到数据端
io 和网络的使用率都非常低,且多节点存储,多节点计算(众人拾柴火焰高)
hadoop版本
1.0 hadoop指的是HDFS+Mapreduce
2.0 hadoop指的是HDFS+Mapreduce+yarn
hadoop三大公司
免费开源版本apache:http://Hadoop.apache.org/
hortonWorks公司 免费版本 收费版本
Cloudera (CDH) 免费版本 收费版本
Hadoop的组成部分
1、HDFS:海量数据的存储系统
2、Map Reduce:海量数据的计算系统(计算框架)
3、YARN:集群资源管理(调度)的框架。