20240609学习记录

数据引擎

数据引擎是一种软件工具或系统,用于处理和管理大量的数据。数据引擎通常用于提取、转换、加载(ETL)、数据分析和数据可视化等数据处理任务。数据引擎可以帮助组织和分析海量数据,从而更快地做出决策或发现信息。常见的数据引擎包括关系数据库引擎、数据仓库引擎、大数据处理引擎等。数据引擎在现代数据驱动的商业环境中扮演着重要的角色,帮助企业更好地理解和利用数据来实现业务目标。

shell

Shell 是计算机操作系统中的一种命令行解释器,用于与操作系统进行交互。它允许用户输入和执行命令,控制程序的运行、文件的操作等。

RDD 算子
所谓算子,就是对某些事物的操作,或者说是方法。记得我们前面说过,spark 存在着惰性评估的机制,所谓惰性评估,就是等到绝对需要时才执行计算。当用户表达一些对数据的操作时,不是立即修改数据,而是建立一个作用到原始数据的转换计划,直到最后才开始执行代码。这里我们将 RDD 分为 2 种,一种是转换算子(Transformation 算子),一种是行动算子(Action 算子)。
transformation 操作会针对已有的 RDD 创建一个新的 RDD。transformation 的特点就是
lazy 特性。lazy 特性指的是,如果一个 spark 应用中只定义了 transformation 操作,那么即使
你执行该应用,这些操作也不会执行。也就是说,transformation 是不会触发 spark 程序的执
行的,它们只是记录了对 RDD 所做的操作,但是不会自发的执行。只有当 transformation 之后,
接着执行了一个 action 操作,那么所有的 transformation 才会执行。Spark 通过这种 lazy 特
性,来进行底层的 spark 应用执行的优化,避免产生过多中间结果。
而 action 则主要是对 RDD 进行最后的操作,或者成为触发操作,比如遍历、reduce、保
存到文件等,并可以返回结果给 Driver 程序。action 操作执行,会触发一个 spark job 的运行,
从而触发这个 action 之前所有的 transformation 的执行。
mapPartitions(比较重要,通常会和map算子进行比较,面试时问的比较多)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值