1+X笔记 大数据概述

大数据特征

体量巨大
种类繁多
处理速度快
价值密度低

大数据的数据结构

行业/企业数据
互联网数据
非结构化数据

大数据应用领域

领域广泛
形式多样

大数据挑战

数据规模 数据隐私问题
数据多样性和异构性 数据的访问与共享
数据实时性要求 人机协作问题
数据价值密度低 数据的合理性

大数据的意义

商业变革,管理变革,思维变革

大数据的发展趋势

我国大数据产业规模稳步增长
政策热度不断上升
融合提速,不均衡现象突出(行业,业务类型,地域分布)
创新与升级

数据储存

单硬盘存储
磁盘阵列
分布式存储

HADOOP概述

1.Hadoop是一个在计算机硬件的集群上储存数据,运行应用程序的开源软件框架
2.解决大数据运算的框架方案
3.大规模的存储/计算
4.对于大型job处理速度非常快
5.多种多样的处理引擎

Hadoop的特点

高可靠性
高可扩展性
高效性
高容错性
低成本

Hadoop生态概览

在这里插入图片描述

HDFS

适合海量数据储存
适合大数据量批处理
一次写入,多次读取
保证数据一致性
通过多副本提高可靠性

MapReduce

在这里插入图片描述

Yarn在这里插入图片描述

MapReduce的计算逻辑

适合海量数据批处理
适合半结构和无结构化数据
性能可能随机器数量线性扩展
Web访问日志分析
可应用于机器学习

Hive

基于Hadoop的一个数据仓库工具

操作接口采用类SQL语法,学习成本低
避免了去写MapReduce,开发效率高
适用于海量结构化数据离线分析
Web访问日志分析
可运用于构建离线数据仓库

HBase

在这里插入图片描述

HBase相关概念

在这里插入图片描述在这里插入图片描述

HBase的数据存储模型

在这里插入图片描述

Spark

在这里插入图片描述在这里插入图片描述

Zookeeper

在这里插入图片描述

Ambari

在这里插入图片描述


## 阿里云大数据平台


MaxCompute

在这里插入图片描述

DataWorks

在这里插入图片描述

AnaiyticDB

在这里插入图片描述

DataV

在这里插入图片描述

QuickBI

在这里插入图片描述PAI

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值