ETL之大数据应用*

ETL之大数据应用
1.什么是大数据
在这里插入图片描述在这里插入图片描述2.大数据的构成
在这里插入图片描述
在这里插入图片描述
3.大数据的采集与提取
在这里插入图片描述4.hadoop与传统数据库的区别
(1).hadoop的5v特征
(1).速度快-实时-离线
(2).多样性
(3).数据量大
(4).真实性
(5).单条数据价值密度低
5.传统数据库特点
(1). 数据结构化 ,数据之间具有联系,面向整个系统。
(2). 数据的共享性高,冗余度低,易扩充 。
(3). 数据独立性高 。
(4). 数据由DBMS统一管理和控制
6.5种特征对比
(1).速度上
hadoop:速度快-实时处理-离线处理,支持流处理,批处理。
传统数据库:关系型数据库定时任务需要人工跑批,以一天为单位。
(2).价值密度
hadoop:一批数据单个数据密度低,有数据分析,产出数据价值。
传统数据库:一般用于生产数据处理少数对商用数据,数据分析少。
(3).多样性
hadoop:有效指标多,高扩展性,支持多语言编写框架。
传统数据库:根据业务场景设计,设计复杂更加注重生产与安全,稳定。
(4).数据量大
hadoop:存储空间大,基于hive的hdfs可分区与分桶。
传统数据库:存储空间小。
(5).真实性
hadoop:来自用户终端自动上报,数据层层筛选。
传统数据库:人工录入。

在这里插入图片描述7.HDFS分布式存储
(1).文件被切割成固大小的数据块
 a.默认数据块大小是64MB,数据块大小可配置
 b.若数据块大小不到64MB,则单独成一个数据块
(2).文件存储方式
a.按大小切割成若干个block,存储在不同的节点上
b.每个block默认存三个副本
block大小和副本数由Client上传文件的时候设置,文件上传成功以后,副本数可以变更,但是Block 大小不可变。
8.HDFS设计思想
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值