fseast-CSDN博客

原创文章索引

目录一、路线一为了方便复习，提高查找效率，以及贯穿学习顺序，对所有文章建立一个索引一、路线一虚拟机上的Hadoop伪分布式和完全分布式的搭建阿里云服务器上的Hadoop伪分布式和完全分布式的搭建（一）HDFS的认识及使用Java对其的简单操作（二）HDFS——节点分析及新特性（一）深入学习MapReduce——MapReduce概述与Hadoop序列化...

2019-08-22 16:47:54 438 1

目录一、基本介绍1.1 Lineage1.2 窄依赖1.3 宽依赖二、Spark Shuffle的原理2.1 ShuffleWriter2.1.1 BypassMergeSortShuffleWriter与SortShuffleWriter的区别2.2 Spark Shuffle2.3 Shuffle相关参数三、源码参考资料一、基本介绍1.1 LineageRDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineag

2021-05-30 17:37:31 939 2

原创 Griffin 系列（一）——Griffin的搭建

目录一、前提和背景1.1 OKR1.2 数据质量相关知识1.2.1 基本维度1.2.2 目前团队应该关注的指标1.2.2.1 完整性1.2.2.2 一致性1.2.2.3 准确性1.2.2.4 时效性二、Griffin 基本介绍2.1 概述2.2 Griffin 系统架构三、Griffin 安装3.1 相关依赖的准备3.1.1 组件依赖的安装3.1.1.1 MySQL 库和表的准备3.1.1.2 Elasticsearch 建索引3.1.2 编译前配置修改3.1.3 打包编译启动四、Griffin 提供的UI

2021-05-13 12:14:55 1737 4

原创 Flink解决问题——Flink从指定的CheckPoint路径恢复任务由于NameNode的standby报错

目录概述解决概述Flink有个流处理的任务一直运行着，程序用到了State，而且每次结果都得依赖前面的State，所以程序重新启动要指定CheckPoint或者SavePoint的恢复路径，配置了状态后端为RocksDBStateBackend，路径为：hdfs:///flink/checkpoints/pack-download-streaming，前面几次程序出现问题都能直接从上次CheckPoint保存的路径恢复状态。这次程序挂了，然后HDFS的NameNode的Active也从原来的110节点

2020-07-13 15:40:20 3358

原创 Flink实时计算状态编程案例——实时统计当天下载量排名（Java实现）

一、需求简单概述 1. 原因：估计看到这篇文章的人都会觉得统计每天的下载量排名这个需求听起来就是T+1的离线批处理需求，其实我也是这么觉得的，所以为什么要写这个呢？因为这不是我说的算的，反正上面就给这么个需求。。。其实这是以前的需求，以前是实时统计的需求，但是排名什么的是在后期的接口通过读取数据库的数据进行实现的，现在就觉得通过接口来获取数据库的数据进行排序什么的效率比较低，就希望直接把排序结果直接写到数据库中。这也是为什么平常我比较习惯用Scala去写Spark和Flink，而这次使用Java编

2020-05-14 00:39:30 3051

fseast的博客

原创文章索引

原创 Spark 系列——Spark的Shuffle原理

原创 Griffin 系列（一）——Griffin的搭建

原创 Flink解决问题——Flink从指定的CheckPoint路径恢复任务由于NameNode的standby报错

原创 Flink实时计算状态编程案例——实时统计当天下载量排名（Java实现）

原创 Spark先进行过滤再读取MongoDB数据库

原创（一）Spark——基础

原创可视化工具 DBeaver6.1.5 连接Hive和Phoenix教程

原创（七）Spark——Structured Streaming

原创（六）Spark——Spark Streaming

原创（一）Flume概述及快速入门

原创（二）Scala语言——函数式编程

原创（一）Scala语言——入门

原创 Zookeeper

原创 PicGo和GitHub搭建图床

原创虚拟机上的Hadoop伪分布式和完全分布式的搭建

原创（一）HDFS的认识及使用Java对其的简单操作

原创（一）深入学习MapReduce——MapReduce概述与Hadoop序列化

原创（二）HDFS——节点分析及新特性

原创阿里云服务器上的Hadoop伪分布式和完全分布式的搭建

原创采用Druid以及DButils简单连接数据库

空空如也

空空如也