大数据特征
体量巨大
种类繁多
处理速度快
价值密度低
大数据的数据结构
行业/企业数据
互联网数据
非结构化数据
大数据应用领域
领域广泛
形式多样
大数据挑战
数据规模 数据隐私问题
数据多样性和异构性 数据的访问与共享
数据实时性要求 人机协作问题
数据价值密度低 数据的合理性
大数据的意义
商业变革,管理变革,思维变革
大数据的发展趋势
我国大数据产业规模稳步增长
政策热度不断上升
融合提速,不均衡现象突出(行业,业务类型,地域分布)
创新与升级
数据储存
单硬盘存储
磁盘阵列
分布式存储
HADOOP概述
1.Hadoop是一个在计算机硬件的集群上储存数据,运行应用程序的开源软件框架
2.解决大数据运算的框架方案
3.大规模的存储/计算
4.对于大型job处理速度非常快
5.多种多样的处理引擎
Hadoop的特点
高可靠性
高可扩展性
高效性
高容错性
低成本
Hadoop生态概览
HDFS
适合海量数据储存
适合大数据量批处理
一次写入,多次读取
保证数据一致性
通过多副本提高可靠性
MapReduce
Yarn![在这里插入图片描述](https://img-blog.csdnimg.cn/4145e53b4de74c3796d7c6b56e77047c.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBATWFraW1hMTU3Mg==,size_16,color_FFFFFF,t_70,g_se,x_16)
MapReduce的计算逻辑
适合海量数据批处理
适合半结构和无结构化数据
性能可能随机器数量线性扩展
Web访问日志分析
可应用于机器学习
Hive
基于Hadoop的一个数据仓库工具
操作接口采用类SQL语法,学习成本低
避免了去写MapReduce,开发效率高
适用于海量结构化数据离线分析
Web访问日志分析
可运用于构建离线数据仓库
HBase
HBase相关概念
HBase的数据存储模型
Spark
Zookeeper
Ambari
## 阿里云大数据平台
MaxCompute
DataWorks
AnaiyticDB
DataV
QuickBI
PAI