华为hcip-big data 学习笔记《二》大数据离线处理场景化解决方案（1）

最新推荐文章于 2024-08-14 20:10:11 发布

王哪跑nn

最新推荐文章于 2024-08-14 20:10:11 发布

阅读量256

点赞数 1

分类专栏：考证文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40968325/article/details/141186335

版权

考证专栏收录该内容

4 篇文章 0 订阅

订阅专栏

上一篇：

华为hcip-big data 学习笔记《一》大数据应用开发总指导-CSDN博客

华为hcip-big data 学习笔记《一》大数据应用开发总指导（2）-CSDN博客

华为hcip-big data 学习笔记《一》大数据应用开发总指导（3）-CSDN博客

目录

1. 离线处理方案

1.3 业务场景-安平领域

1.5 核心诉求

1.6 离线批处理流程图

1.7 常用组件

1. 离线处理方案

1.1 前言

进入大数据时代，企业产生的数据出现爆发式增长，部分数据需要实现离线存储分析，而传统的数据处理方案满足不了海量数据存储和海量数据处理需求。结合大数据离线技术，如何提出行之有效的解决方案以及如何去实施应用，成为企业面临的难题。

1.2 目标

学完本课程后，您将能够：

熟悉离线批处理应用场景
数据离线批处理采用的技术方案
学习离线批处理的实际案例

1.3 业务场景-安平领域

1.4 概念

离线批处理，是指对海量历史数据进行处理和分析，生成结果数据，供下一步数据应用使用的过程。

离线批处理对数据处理的时延要求不高，但是处理的数据量较大，占用的计算存储资源较多，通常通过MR作业，Spark作业或者HQL作业实现。

1.5 核心诉求

处理时间要求不高
处理数据量巨大
处理数据格式多样
支持SQL类作业和自定义作业

1.6 离线批处理流程图

1.7 常用组件

HDFS:分布式文件系统，为各种批处理引擎提供数据存储，可以存储各种文件格式数据。
YARN:资源调度引擎，为各种批处理引擎提供资源调度能力
MapReduce:大数据批处理引擎，用于处理海量数据，但是处理速度较慢
Hive:大数据SQL批处理引擎，用于处理SQL类批处理作业，但是处理速度较慢。
Spark:基于内存的数据处理引擎，适合海量数据，处理速度高效。
- Spark SQL:Spark处理结构化数据的一个模块。

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
华为hcip-big data 学习笔记《二》大数据离线处理场景化解决方案（1）

华为hcip-big data 学习笔记《二》大数据离线处理场景化解决方案（1）离线处理方案
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。