ETL之大数据应用
1.什么是大数据
2.大数据的构成
3.大数据的采集与提取
4.hadoop与传统数据库的区别
(1).hadoop的5v特征
(1).速度快-实时-离线
(2).多样性
(3).数据量大
(4).真实性
(5).单条数据价值密度低
5.传统数据库特点
(1). 数据结构化 ,数据之间具有联系,面向整个系统。
(2). 数据的共享性高,冗余度低,易扩充 。
(3). 数据独立性高 。
(4). 数据由DBMS统一管理和控制
6.5种特征对比
(1).速度上
hadoop:速度快-实时处理-离线处理,支持流处理,批处理。
传统数据库:关系型数据库定时任务需要人工跑批,以一天为单位。
(2).价值密度
hadoop:一批数据单个数据密度低,有数据分析,产出数据价值。
传统数据库:一般用于生产数据处理少数对商用数据,数据分析少。
(3).多样性
hadoop:有效指标多,高扩展性,支持多语言编写框架。
传统数据库:根据业务场景设计,设计复杂更加注重生产与安全,稳定。
(4).数据量大
hadoop:存储空间大,基于hive的hdfs可分区与分桶。
传统数据库:存储空间小。
(5).真实性
hadoop:来自用户终端自动上报,数据层层筛选。
传统数据库:人工录入。
7.HDFS分布式存储
(1).文件被切割成固大小的数据块
a.默认数据块大小是64MB,数据块大小可配置
b.若数据块大小不到64MB,则单独成一个数据块
(2).文件存储方式
a.按大小切割成若干个block,存储在不同的节点上
b.每个block默认存三个副本
block大小和副本数由Client上传文件的时候设置,文件上传成功以后,副本数可以变更,但是Block 大小不可变。
8.HDFS设计思想