一、大数据应用开发总指导

Eren_Mikasa

已于 2024-09-27 16:19:04 修改

阅读量663

点赞数 30

分类专栏：大数据 # 华为认证大数据开发高级工程师文章标签：大数据华为

于 2024-09-27 14:30:00 首次发布

本文链接：https://blog.csdn.net/eren_mikasa/article/details/142584848

版权

大数据同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

华为认证大数据开发高级工程师

2 篇文章 0 订阅

订阅专栏

https://edu.huaweicloud.com/training/bdsd.html

华为认证大数据开发高级工程师

个人总结：主要介绍了大数据的主要各组件的职责，和应用场景及对应的解决方案。

课程导读

本课程为HCIP-Big Data Developer V2.0培训系列内容，请点击查看[ 完整课程系列](https://edu.huaweicloud.com/roadmap/bigdatadeveloper-hcip.html) ；

想进一步考取华为认证大数据开发高级工程师HCIP-Big Data Developer，请点击查看职业认证考取流程。

HCIP-Big Data Developer V1.5****介绍：

面向对象

大数据方向的应用开发工程师；行业分析大数据的工程师。

定位

培训与认证具备使用开源技术平台和华为FusionInsight HD开发大数据解决方案能力的高级工程师

建议掌握的知识

大数据应用开发流程、大数据主流技术、大数据场景化解决方案（离线批处理、实时检索、实时流处理、融合数仓GuassDB 200）等。

课程内容

一、大数据应用开发总指导

本课介绍了大数据主流技术、大数据场景化解决方案和如何进行大数据应用开发。

二、大数据离线处理场景化解决方案

本课主要给大家讲解了大数据离线批处理的概念，应用场景，常用组件的使用方法，以及简单介绍了离线批处理实战。基础的部分是大数据离线批处理概念和应用场景。难点是各个组件的具体使用，以及组件之间的组合使用。

三、大数据实时检索场景化解决方案

实时检索场景化解决方案的应用场景、技术架构、所采用的各种技术原理及使用，最后包含实际案例帮助大家更好的理解该解决方案。

四、大数据实时流处理场景化解决方案

大数据应用中实时流的场景解决方案，从方案架构到技术实现框架，包括数据的采集、处理、存储，包括实时流案例分析及实战。

五、大数据融合数仓场景化解决方案

大数据融合数仓的场景解决方案，从方案架构到技术实现框架，包括数据分析平台、华为GaussDB解决方案等。

1. 大数据主流技术

大数据定义 4V：体量巨大、处理速度快、类型繁多、价值密度低

大数据的三架马车

分布式文件系统 GFS
分布式计算框架 MapReduce
分布式数据库系统 BigTable

大数据技术演变

大数据主流技术

——大数据技术伴随大数据的采集、存储、处理和分析的相关技术。

大数据主流技术-数据采集

使用 Flume，可进行流式日志数据的收集
使用 Sqoop 可以交互关系型数据库，进行导入导出数据
使用爬虫技术，可在网上爬取海量网页数据

大数据主流技术-数据存储与管理

——大数据利用分布式文件系统HDFS、HBase、Hive，实现对结构化、半结构化和非结构化数据的存储和管理。

大数据主流技术-数据处理与分析

——利用分布式并行编程模型和计算框架，结合机器学习和数据挖掘算法，实现对海量数据的处理和分析。Hadoop、Sparck、Flink。

思考题

1. Google 发布的三篇论文是哪些？（） 1. GFS 2. HDFS 3. MapReduce 4. BigTable

大数据的 4V 不包含哪一个？（）
1. 数据量大
2. 种类多
3. 价值密度低
4. 分布式
5. 处理速度快
以下哪些属于大数据存储与管理技术？（）
1. HDFS
2. HBase
3. Tez
4. Durid

2. 大数据场景化解决方案

`2024年9月26日17:15:57`

大数据应用

领域	大数据的应用
金融	高频交易，市场舆情分析，信贷风险分析等
物流	智慧物流，包括成本控制、风险管理等
医疗	流行病预测，智慧医疗，健康管理等
互联网	用户画像，个性化推荐，广告投放等
城市	智慧交通，城市规划，智能安防等

场景化解决方案的分类

离线批处理
实时检索
实时流处理
融合数仓

离线批处理

**离线批处理的概念**

离线批处理，是指对海量历史数据进处理和分析，生成结果数据，供下一步数据应用使用的过程。
离线批处理对数据处理的时延要求不高，但是处理的数据量较大，占用的计算存储资源较多，通常通过MR作业、Spark作业或者HQL作业实现。

离线批处理的特点

处理时间要求不高
处理数据量巨大
处理数据格式多样
占用计算存储资源的多

离线批处理流程图

离线批处理场景化实战

实时检索

实时检索的概念

——实时检索简而言之就是对系统内的一些信息根据关键词进行即使、快速搜索，实现即搜即得的效果。强调的是实时低延迟。

核心诉求

检索性能要求高：基于主键的检索需要在1秒内响应，基于非主键的检索需要在3秒内响应，不承担复杂查询和统计类查询
高并发查询：通常有大于100的并发查询
数据量大：PB级数据量，集群规模在1000节点以上。对图数据库的场景，点个数在10亿以上，边个数在100亿以上
支持结构化和非结构化：需要同时保存结构化数据和非结构化数据，经常用来对图片等小文件进行检索
高效的数据加载：数据加载要求高，每小时可以加载TB级数据
支持图检索：支持检索图数据，支持图标准查询接口

实时检索流图

实时检索场景化实战

实时流处理

实时流处理的概念

——实时流处理，通常是指对实时数据源进行快速分析，迅速触发下一步动作的场景。实时数据对分析处理速度要求极高，数据处理规模巨大，对CPU和内存要求很高，但是通常数据不落地，对存储量要求不高。实时处理，通常通过StructuredStreaming或者Flink任务实现。

实时数据处理系统的诉求

处理速度快：端到端处理需要达到秒级，流处理平台负责的数据采集和数据处理要在1秒内完成。如风控项目要求单条数据处理时间达到秒级，单节点TPS大于2000。
吞吐量高：需在短时内接收并处理大量数据记录，吞吐量需要达到数十兆/秒/节点。
抗震性强：为应对数据源端业务数据产生速度会突然出现峰值的情形，需提供数据缓存机制。
可靠性高：网络、软件等故障发生时1需保止爸委据不丢失，数据处理不遗漏、不重复。
水平扩展：当系统处理能力出现瓶颈后，可通过节点的水平扩展提升处理性能。
多数据源支持：支持网络流、文件、数据库表、IOT等格式的数据源。对于文件数据源，可以处理增量数据的加载。
数据权限和资源隔离：消息处理、流处理需要有数据权限控制，不同的作业、用户可以访问、处理不同的消息和数据。多种流处理应用之间要进行资源控制和隔离，防止发生资源争抢。
第三方工具对接：支持与第三方规则引擎、决策系统、实时推荐系统等对接。

实时流处理数据流图