一、大数据应用开发总指导

https://edu.huaweicloud.com/training/bdsd.html

华为认证大数据开发高级工程师

个人总结:主要介绍了大数据的主要各组件的职责,和应用场景及对应的解决方案。

课程导读

本课程为HCIP-Big Data Developer V2.0培训系列内容,请点击查看[ 完整课程系列](https://edu.huaweicloud.com/roadmap/bigdatadeveloper-hcip.html) ;

想进一步考取华为认证大数据开发高级工程师HCIP-Big Data Developer,请点击查看职业认证考取流程

HCIP-Big Data Developer V1.5****介绍:

面向对象

大数据方向的应用开发工程师;行业分析大数据的工程师。

定位

培训与认证具备使用开源技术平台和华为FusionInsight HD开发大数据解决方案能力的高级工程师

建议掌握的知识

大数据应用开发流程、大数据主流技术、大数据场景化解决方案(离线批处理、实时检索、实时流处理、融合数仓GuassDB 200)等。

课程内容

一、大数据应用开发总指导

本课介绍了大数据主流技术、大数据场景化解决方案和如何进行大数据应用开发。

二、大数据离线处理场景化解决方案

本课主要给大家讲解了大数据离线批处理的概念,应用场景,常用组件的使用方法,以及简单介绍了离线批处理实战。基础的部分是大数据离线批处理概念和应用场景。难点是各个组件的具体使用,以及组件之间的组合使用。

三、大数据实时检索场景化解决方案

实时检索场景化解决方案的应用场景、技术架构、所采用的各种技术原理及使用,最后包含实际案例帮助大家更好的理解该解决方案。

四、大数据实时流处理场景化解决方案

大数据应用中实时流的场景解决方案,从方案架构到技术实现框架,包括数据的采集、处理、存储,包括实时流案例分析及实战。

五、大数据融合数仓场景化解决方案

大数据融合数仓的场景解决方案,从方案架构到技术实现框架,包括数据分析平台、华为GaussDB解决方案等。

1. 大数据主流技术

大数据定义 4V:体量巨大、处理速度快、类型繁多、价值密度低

大数据的三架马车

  1. 分布式文件系统 GFS
  2. 分布式计算框架 MapReduce
  3. 分布式数据库系统 BigTable

大数据技术演变

大数据主流技术

——大数据技术伴随大数据的采集、存储、处理和分析的相关技术。

大数据主流技术-数据采集

  • 使用 Flume,可进行流式日志数据的收集
  • 使用 Sqoop 可以交互关系型数据库,进行导入导出数据
  • 使用爬虫技术,可在网上爬取海量网页数据

大数据主流技术-数据存储与管理

——大数据利用分布式文件系统HDFS、HBase、Hive,实现对结构化、半结构化和非结构化数据的存储和管理。

大数据主流技术-数据处理与分析

——利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析。Hadoop、Sparck、Flink。

思考题

1. Google 发布的三篇论文是哪些?() 1. GFS 2. HDFS 3. MapReduce 4. BigTable
  1. 大数据的 4V 不包含哪一个?()

    1. 数据量大
    2. 种类多
    3. 价值密度低
    4. 分布式
    5. 处理速度快
  2. 以下哪些属于大数据存储与管理技术?()

    1. HDFS
    2. HBase
    3. Tez
    4. Durid

2. 大数据场景化解决方案

`2024年9月26日17:15:57`

大数据应用

领域大数据的应用
金融高频交易,市场舆情分析,信贷风险分析等
物流智慧物流,包括成本控制、风险管理等
医疗流行病预测,智慧医疗,健康管理等
互联网用户画像,个性化推荐,广告投放等
城市智慧交通,城市规划,智能安防等

场景化解决方案的分类

  • 离线批处理
  • 实时检索
  • 实时流处理
  • 融合数仓

离线批处理

**离线批处理的概念**
  • 离线批处理,是指对海量历史数据进处理和分析,生成结果数据,供下一步数据应用使用的过程。
  • 离线批处理对数据处理的时延要求不高,但是处理的数据量较大,占用的计算存储资源较多,通常通过MR作业、Spark作业或者HQL作业实现。

离线批处理的特点

  • 处理时间要求不高
  • 处理数据量巨大
  • 处理数据格式多样
  • 占用计算存储资源的多

离线批处理流程图

离线批处理场景化实战

实时检索

实时检索的概念

——实时检索简而言之就是对系统内的一些信息根据关键词进行即使、快速搜索,实现即搜即得的效果。强调的是实时低延迟。

核心诉求

  • 检索性能要求高:基于主键的检索需要在1秒内响应,基于非主键的检索需要在3秒内响应,不承担复杂查询和统计类查询
  • 高并发查询:通常有大于100的并发查询
  • 数据量大:PB级数据量,集群规模在1000节点以上。对图数据库的场景,点个数在10亿以上,边个数在100亿以上
  • 支持结构化和非结构化:需要同时保存结构化数据和非结构化数据,经常用来对图片等小文件进行检索
  • 高效的数据加载:数据加载要求高,每小时可以加载TB级数据
  • 支持图检索:支持检索图数据,支持图标准查询接口

实时检索流图

实时检索场景化实战

实时流处理

实时流处理的概念

——实时流处理,通常是指对实时数据源进行快速分析,迅速触发下一步动作的场景。实时数据对分析处理速度要求极高,数据处理规模巨大,对CPU和内存要求很高,但是通常数据不落地,对存储量要求不高。实时处理,通常通过StructuredStreaming或者Flink任务实现。

实时数据处理系统的诉求

  • 处理速度快:端到端处理需要达到秒级,流处理平台负责的数据采集和数据处理要在1秒内完成。如风控项目要求单条数据处理时间达到秒级,单节点TPS大于2000。
  • 吞吐量高:需在短时内接收并处理大量数据记录,吞吐量需要达到数十兆/秒/节点。
  • 抗震性强:为应对数据源端业务数据产生速度会突然出现峰值的情形,需提供数据缓存机制。
  • 可靠性高:网络、软件等故障发生时1需保止爸委据不丢失,数据处理不遗漏、不重复。
  • 水平扩展:当系统处理能力出现瓶颈后,可通过节点的水平扩展提升处理性能。
  • 多数据源支持:支持网络流、文件、数据库表、IOT等格式的数据源。对于文件数据源,可以处理增量数据的加载。
  • 数据权限和资源隔离:消息处理、流处理需要有数据权限控制,不同的作业、用户可以访问、处理不同的消息和数据。多种流处理应用之间要进行资源控制和隔离,防止发生资源争抢。
  • 第三方工具对接:支持与第三方规则引擎、决策系统、实时推荐系统等对接。

实时流处理数据流图

融合数仓

**融合数仓的概念**

——在数据慢慢呈现数据处理量大、数据处理时延低、数据处理格式多样的要求下,基于模块化存储的数据仓库重要性日益增加,但同时也带来了新的问题。

————随着精准营销、客户画像、互联网平台等业务的上线,需要引入非结构化数据,以及提升对实时数据的计算处理能力,需要建立大数据平台满足上述业务需求。

融合数仓流图

融合数仓场景化实战

思考题

1. 大数据可以用于流行病预测?() 2. 离线批处理通常通过MR作业、Spark作业或者HQL作业实现。() 3. 实时流处理对时延的要求不高。()

3. 大数据应用开发

`2024年9月26日17:52:44`

技能要求-编程基础

  1. 具备JAVA/Scala编程能力
  2. 熟悉SQL
  3. 熟悉Linux常规操作

技能要求-熟悉业务开发

  1. 理解研发开发流程
  2. 理解本应用业务背景

大数据应用开发流程

思考题

  1. 应用开发需要进行需求分析,包括需求调研和市场调研。()
  2. 技术选型时应该采用最新的技术不需要考虑技术的稳定性。()
  3. 服务器选型可以选择云主机和物理机。()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值