笔记
文章平均质量分 97
taoshengyijiu_
这个作者很懒,什么都没留下…
展开
-
Spark 学习之路三——Spark 的核心之 RDD 进阶
Spark 学习之路三——Spark 的核心之 RDD 进阶文章目录一、Spark 优化1.1 常用参数说明1.2 Spark 常用编程建议二、Spark 中的两种依赖关系2.1 宽依赖2.2 窄依赖2.3 `DAG`2.4 **任务的划分(重点)**2.5 RDD的缓存与检查点2.5.1 RDD 缓存2.5.2 RDD 检查点2.6 累加器和广播变量2.6.1 累加器2.6.2 广播变量三、Spark 的原理3.1 Spark 的运行流程3.2 Spark 的运行涉及概念3.2.1 `Applicati原创 2021-11-02 20:46:25 · 1271 阅读 · 0 评论 -
Spark学习之路二——Spark 的核心之 RDD基础
Spark学习之路二——Spark 的核心之 RDD一. 概述1.1 什么是 RDDRDD(Resilient Distributed Dataset)—— 弹性分布式数据集。RDD 是 Spark 中的抽象数据结构类型,Spark 中最基本的数据抽象,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD 具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD 允许用户在执行多个查询时显示地将工作集缓存在原创 2021-10-11 14:04:27 · 423 阅读 · 0 评论 -
Spark学习之路一——Spark基础及环境搭建
高速内存计算框架 —— Spark文章目录一. Spark 概述1.1 概述1.2 优势特性1.2.1 运行速度快1.2.2 容易使用1.2.3 通用性1.2.4 运行模式多样1.3 Spark vs Hadoop1.3.1 表达能力更丰富1.3.2 运算效率更优1.3.3 先进的任务调度机制1.3.4 实际开发更方便1.4 Spark 生态系统1.4.1 `Spark core`1.4.2 `Spark SQL`1.4.3 `Spark Streaming`1.4.4 `Spark MLib`1.4.原创 2021-09-29 13:54:22 · 373 阅读 · 0 评论 -
Scala 编程
Scala 编程 文章目录一. Scala 简介二. Scala 的安装与验证2.1 下载安装2.2 验证2.3 IDEA 中使用 Scala三. Scala 的特性3.1 面向对象3.2 函数式编程3.3 静态类型3.4 可扩展性3.5 并发性四. 基本语法4.1 变量的声明与定义4.2 数据类型和操作符4.2.1 数据类型4.2.2 操作符4.2.2.1 数学运算4.2.2.2 关系与逻辑操作4.2.2.3 对象相等性五. 控制结构与函数5.1 if 表达式5.1.1 if 语句的语法格式5.1.2原创 2021-09-16 22:36:04 · 538 阅读 · 0 评论 -
任务调度系统 Airflow
任务调度系统 Airflow 文章目录一. Airflow 简介1.1 体系结构1.2 重要概念1.2.1 DAG(Directed Acyclic Graph)有向无环图1.2.2 Task二. Airflow 安装部署2.1 安装依赖2.2 Python 环境准备2.3 安装 Airflow2.4 创建数据库用户并授权2.5 修改 Airflow DB 配置2.6 安装密码模块2.6.1 安装 `password` 组件2.6.2 修改 `airflow.cfg` 配置文件2.6.3 ...原创 2021-09-13 10:07:42 · 439 阅读 · 0 评论 -
电商离线数仓项目实战(下)
电商离线数仓项目实战(下)电商分析——核心交易文章目录电商离线数仓项目实战(下)电商分析——核心交易一、业务需求二、业务数据库表结构1. 数据库表之间的联系img2. 业务数据库——数据源3. 数据库表结构设计3.1 交易订单表3.2 订单产品表3.3 产品信息表3.4 产品分类表3.5 商家店铺表3.6 地域组织表3.7 支付方式表三、数据导入3.1 全量数据导入3.1.1 产品分类表3.1.2 商家店铺表3.1.3 商家地域组织表3.1.4 支付方式表3.2 增量数据导入3.2.1 订单表3.2.原创 2021-09-13 10:05:29 · 593 阅读 · 0 评论