-
一、什么是大数据
-
1.概念
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
-
2.特点
大数据的特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)
-
3.本质
1.数据的存储:分布式文件系统(分布式存储) —> HDFS
2.数据的计算:分布式计算 —> MapReduce -
4.数据来源
媒体数据、网络日志、公共设施(监控摄像头)、单位组织、大型设备、工业领域、地理定位、基因图谱
-
5.应用
1.各种预测:天气预报、赛事预测
2.个性化推荐:淘宝商品推荐、今日头条
3.政府治理:人口迁徙、智能城管、智能警务
4.经济治理:金融监管系统、工商大数据、农业大数据
5.公共服务:智慧交通、智慧医疗、疾病防控
6.商业创新:电子商务、信用体系、智能物流
-
二、Hadoop概念
-
1.概述
开源的分布式存储与分布式计算的平台,主要包括三部分:HDFS,YARN,和MapReduce
-
2.HDFS(分布式存储框架)
1.来源:GFS(Goole File System)
2.概述:全名Hadoop Distributed File System,主要将文件切分成指定大小的数据块(Hadoop1.×默认64M,
Hadoop2.×默认128M)多副本(默认为3)的存在多个机器。
3.特点:扩展性、容错性、海量数据存储 -
3.MapReduce(分布式计算框架)
1.来源:Google MapReduce
2.概述:基于YARN的系统,用于并行处理大型数据集,把一个大任务拆分成小任务,再进行汇总
2.特点:扩展性、容错性、海量数据的离线处理 -
4.YARN(资源管理系统)
1.概述:整个集群资源的管理与调度
2.特点:扩展性、容错性、多框架资源统一调度 -
5.Hadoop优势
1.存储/计算资源不够可以横向线性的扩展机器
2.一个集群可以包含数以千计、万计的节点
3.存储在低廉机器上、成本低廉
4.成熟的生态圈