大数据概念与Hadoop

一、什么是大数据

1.概念

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

2.特点

大数据的特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)

3.本质

1.数据的存储:分布式文件系统(分布式存储) —> HDFS
2.数据的计算:分布式计算 —> MapReduce

4.数据来源

媒体数据、网络日志、公共设施(监控摄像头)、单位组织、大型设备、工业领域、地理定位、基因图谱

5.应用

1.各种预测:天气预报、赛事预测
2.个性化推荐:淘宝商品推荐、今日头条
3.政府治理:人口迁徙、智能城管、智能警务
4.经济治理:金融监管系统、工商大数据、农业大数据
5.公共服务:智慧交通、智慧医疗、疾病防控
6.商业创新:电子商务、信用体系、智能物流

二、Hadoop概念

1.概述

开源的分布式存储与分布式计算的平台,主要包括三部分:HDFS,YARN,和MapReduce

2.HDFS(分布式存储框架)

1.来源:GFS(Goole File System)
2.概述:全名Hadoop Distributed File System,主要将文件切分成指定大小的数据块(Hadoop1.×默认64M,
              Hadoop2.×默认128M)多副本(默认为3)的存在多个机器。
3.特点:扩展性、容错性、海量数据存储

3.MapReduce(分布式计算框架)

1.来源:Google MapReduce
2.概述:基于YARN的系统,用于并行处理大型数据集,把一个大任务拆分成小任务,再进行汇总
2.特点:扩展性、容错性、海量数据的离线处理

4.YARN(资源管理系统)

1.概述:整个集群资源的管理与调度
2.特点:扩展性、容错性、多框架资源统一调度

5.Hadoop优势

1.存储/计算资源不够可以横向线性的扩展机器
2.一个集群可以包含数以千计、万计的节点
3.存储在低廉机器上、成本低廉
4.成熟的生态圈

推荐书籍:Hadoop权威指南_第四版_中文版.pdf

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值