离线大数据开发实战(读书笔记)-- 第一章 概述

第一章 概述

数据分为以下几类:
1.结构化数据 :数据库中的数据
2.半结构化数据:日志文件、XML/JSON
3.非结构化数据:图像、声音

数据储存处理
1.离线处理:按天进行数据处理,每天凌晨等数据采集和同步的数据到位后,相关的数据处理任务会被按照预先谁的ETL(抽取、转换、加载)逻辑以及ETL任务之间的拓扑关系一次调用。最终数据会被写入离线数据仓库中。离线数据仓库通常是按照某一种建模思想(维度建模)精心组织的。
离线数据通常放在一个Staging Area(暂存区)。
Google三篇论文:hdfs/mapreduce/hbase
2.实时处理:以秒为单位。依赖Storm/类 Storm 的流处理框架和 Spark 生态的 Spark Streaming
3.近线数据:以小时、15分钟为单位
在这里插入图片描述
数据采集传输–处理–储存
离线批处理:Sqoop作为采集和传输工具、Hive作为离线数据处理平台、HDFS、Hbase作为数据存储。
MapReduce HDFS 基础上实现了任务的分发、跟踪和执行等工作,并收
集结果,两者相互作用,共同完成了 Hadoop 分布式集群的主要任务

实时采集和传输:Flume 和Kafka作为采集和传输工具、Storm、Spark、Flink作为处理平台

在这里插入图片描述
离线数据平台通常和 Hadoop Hive 、数据仓库、 ETL 、维度建模、 数据公共层等联系在一起。
离线数据平台的另一个关键技术是数据的建模,目前采用最为广泛也最为大家认同的是维度建模技术。

数据仓库技术
OLTP:是 Online Transaction ~rocessing ,顾名思义, OLTP 数据库主要用来进行事务处理,比如新增一个订单、修改一个订单、查询一个订单和作废一个订单等 OLTP 数据库最核心的需求是单条记录的高效快速处理,索引技术、分库分表等最根本的诉求就是解决此问题。问题是太慢了

OLAP:本身能够处理和统计大量的数据。一般只需要处理数据查询请求,数据都是批量导入的,因此通过列存储、列压缩、位图索引等技术可以大大加快相应请求速度。
在这里插入图片描述
Hadoop数据仓库
在hadoop出现之前,商业性的数据仓库产品占据主导。现在,基于hadoop的数据仓库以及是互联网公司的标配。hadoop内在的技术基因决定了其非常容易扩展,成本低廉。
面临的最大挑战是数据查询延迟(几分钟,甚至几个小时),Hive SQL 是高延迟的,不但翻译成的 MapReduce 任务执行延迟高,任务 提交和处理过程中也会消耗时间 因此,即使 ive 处理的数据集非常小(比如 MB ),在执行时 会出现延迟现象

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值