自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 文章索引

目录一、路线一为了方便复习,提高查找效率,以及贯穿学习顺序,对所有文章建立一个索引一、路线一虚拟机上的Hadoop伪分布式和完全分布式的搭建阿里云服务器上的Hadoop伪分布式和完全分布式的搭建(一)HDFS的认识及使用Java对其的简单操作(二)HDFS——节点分析及新特性(一)深入学习MapReduce——MapReduce概述与Hadoop序列化...

2019-08-22 16:47:54 399 1

原创 Spark 系列——Spark的Shuffle原理

目录一、基本介绍1.1 Lineage1.2 窄依赖1.3 宽依赖二、Spark Shuffle的原理2.1 ShuffleWriter2.1.1 BypassMergeSortShuffleWriter与SortShuffleWriter的区别2.2 Spark Shuffle2.3 Shuffle相关参数三、源码参考资料一、基本介绍1.1 LineageRDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineag

2021-05-30 17:37:31 760 2

原创 Griffin 系列(一)——Griffin的搭建

目录一、前提和背景1.1 OKR1.2 数据质量相关知识1.2.1 基本维度1.2.2 目前团队应该关注的指标1.2.2.1 完整性1.2.2.2 一致性1.2.2.3 准确性1.2.2.4 时效性二、Griffin 基本介绍2.1 概述2.2 Griffin 系统架构三、Griffin 安装3.1 相关依赖的准备3.1.1 组件依赖的安装3.1.1.1 MySQL 库和表的准备3.1.1.2 Elasticsearch 建索引3.1.2 编译前配置修改3.1.3 打包编译启动四、Griffin 提供的UI

2021-05-13 12:14:55 1372 4

原创 Flink解决问题——Flink从指定的CheckPoint路径恢复任务由于NameNode的standby报错

目录概述解决概述Flink有个流处理的任务一直运行着,程序用到了State,而且每次结果都得依赖前面的State,所以程序重新启动要指定CheckPoint或者SavePoint的恢复路径,配置了状态后端为RocksDBStateBackend,路径为:hdfs:///flink/checkpoints/pack-download-streaming,前面几次程序出现问题都能直接从上次CheckPoint保存的路径恢复状态。这次程序挂了,然后HDFS的NameNode的Active也从原来的110节点

2020-07-13 15:40:20 3064

原创 Flink实时计算状态编程案例——实时统计当天下载量排名(Java实现)

一、需求简单概述  1. 原因:  估计看到这篇文章的人都会觉得统计每天的下载量排名这个需求听起来就是T+1的离线批处理需求,其实我也是这么觉得的,所以为什么要写这个呢?因为这不是我说的算的,反正上面就给这么个需求。。。其实这是以前的需求,以前是实时统计的需求,但是排名什么的是在后期的接口通过读取数据库的数据进行实现的,现在就觉得通过接口来获取数据库的数据进行排序什么的效率比较低,就希望直接把排序结果直接写到数据库中。这也是为什么平常我比较习惯用Scala去写Spark和Flink,而这次使用Java编

2020-05-14 00:39:30 2892

原创 Spark先进行过滤再读取MongoDB数据库

目录一、官方连接器 Spark Connector二、使用Hadoop格式读取MongoDB数据一、官方连接器 Spark Connector  本来MongoDB官方提供了Spark 连接 MongoDB的连接器,其实用起来也挺方便的。但是吧,leader以前一直都是使用flink的DataSet,Flink的DataSet在读取MongoDB数据库的时候,是可以先进行一个过滤再读过来,所以...

2020-04-28 23:11:45 1368

原创 (一)Spark——基础

目录一、Spark 概述1. 什么是Spark一、Spark 概述1. 什么是Spark  Spark是一个快速(基于内存),通用,可扩展的集群计算引擎。并且Spark目前已经成为 Apache 最活跃的开源项目, 有超过 1000 个活跃的贡献者....

2020-03-17 16:45:09 329

原创 可视化工具 DBeaver6.1.5 连接Hive和Phoenix教程

目录说明步骤说明直接使用bin/hive 进去hive操作hive着实不方便,所以这里采用 DBeaver 可视化软件连接hive。需要该软件可以直接去官网下,或者直接找我要也OK。步骤打开软件以后选择HIVE,双击:填主机,用户名,然后点击编辑驱动设置点击添加工件弹出一个窗口以后去Maven搜索去Maven搜索回到DBeaver软件输入对应...

2019-10-09 00:46:40 1729 3

原创 (七)Spark——Structured Streaming

目录一、Structured Streaming 概述二、Structured Streaming 快速入门1. 导入依赖2. 具体实现3. 测试结果4. 代码说明三、Structured Streaming 编程模型1. 基本概念1.1 输入表1.2 结果表1.3 输出1.4 快速入门代码的再次说明2. 处理事件-时间和延迟数据(Handling Event-time and Late Data...

2019-10-06 14:32:12 1324

原创 (六)Spark——Spark Streaming

目录一、Spark Streaming 概述1. Spark Streaming是什么2. Spark Streaming特点3. Spark Streaming 架构3.1 背压机制二、DStream 入门1. WordCount 案例2. WordCount 案例解析三、DStream 创建1. RDD 队列2. 自定义数据源3. Kafka 数据源3.1 用法及说明3.2 实现3.3 至少执...

2019-10-06 14:08:33 418

原创 (一)Flume概述及快速入门

目录一、Flume概述1. Flume定义2. Flume基础架构2.1 Agent2.2 Source2.3 Sink2.4 Channel2.5 Event二、Flume快速入门1. Flume安装部署1.1 安装地址1.2 安装部署2. Flume入门案例2.1 监控端口数据案例一、Flume概述1. Flume定义  Flume是Cloudera提供的一个高可用的,高可靠的,分布式的...

2019-09-29 09:36:38 2497

原创 (二)Scala语言——函数式编程

目录一、函数式编程函数基本语法一、函数式编程1)面向对象编程 解决问题,分解对象,行为,属性,然后通过对象的关系以及行为的调用来解决问题。 对象:用户; 行为:登录、连接jdbc、读取数据库。 属性:用户名、密码。 Scala语言是一个完全面向对象编程语言。万物皆对象。2)函数式编程 解决问题时,将问题分解成一个一个的步骤,将每个步骤进行封装(函数),通过调用这些封装好的步骤,解...

2019-09-08 18:51:23 764

原创 (一)Scala语言——入门

目录一、Scala 入门1. 概述1.1 为什么学习Scala2. Scala 发展历史3. Scala 和 Java 关系4. Scala 语言特点Scala 环境搭建4. HelloWorld 案例4.1 IDEA环境创建4.2 Scala程序反编译4.3 开发注意事项5. 关联Scala源码6. 官方编程指南二、变量和数据类型1. 注释3. 变量4. 字符串输出5. 键盘输入一、Scala...

2019-09-08 18:49:08 4428

原创 Zookeeper

目录一、Zookeeper 入门1. 概述2. 特点3. 数据结构4. 应用场景一、Zookeeper 入门1. 概述Zookeeper工作机制Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出...

2019-09-02 18:47:18 320 1

原创 PicGo和GitHub搭建图床

下载PicGo链接:https://github.com/Molunerfinn/PicGo/releasesWindows系统选择exe文件,Mac选择dmg文件,然后进行下载。选完以后拉到下方:复制保存。

2019-09-02 14:22:17 309 1

原创 虚拟机上的Hadoop伪分布式和完全分布式的搭建

目录一、Hadoop1.Hadoop的组成1.1HDFS架构概述1.2YARN架构概述1.3MapReduce架构概述二、Hadoop的搭建1.运行环境1.1安装JDK1.2安装Hadoop2.伪分布式运行模式2.1配置文件说明2.2启动HDFS并运行MapReduce程序2.3启动YARN并运行MapReduce程序2.4配置历史服务器2.5配置日志的聚集3.完全分布式运行模式3.1虚拟机准备3...

2019-08-22 09:30:08 4950

原创 (一)HDFS的认识及使用Java对其的简单操作

目录一、HDFS概述优点缺点HDFS组成架构HDFS文件块大小二、HDFS的Shell操作一、HDFS概述HDFS(Hadoop distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。使用场景:适合一次写入,多次读写的场景,且不支持文件的修改。适合用来做数据分析,...

2019-08-05 00:05:37 2004

原创 (一)深入学习MapReduce——MapReduce概述与Hadoop序列化

目录一、MapReduce概述MapReduce定义MapReduce优缺点优点缺点MapReduce核心思想MapReduce进程常用数据序列化类型MapReduce编程规范一、MapReduce概述MapReduce定义MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默...

2019-08-02 15:01:38 311

原创 (二)HDFS——节点分析及新特性

目录一、NameNode和SecondaryNameNodeNN和2NN工作机制Fsimage 和 Edits解析CheckPoint时间设置NameNode故障处理集群安全模式NameNode多目录配置二、DataNodeDataNode工作机制数据完整性掉线时限参数设置服役新数据节点退役旧数据节点添加白名单接上篇:(一)HDFS的认识及使用Java对其的简单操作一、NameNode和Sec...

2019-08-01 21:48:36 272

原创 阿里云服务器上的Hadoop伪分布式和完全分布式的搭建

目录伪分布式运行模式搭建接上篇:虚拟机上的Hadoop伪分布式和完全分布式的搭建伪分布式运行模式搞来了三台阿里云服务器:镜像:都是CentOS 7JDK版本是1.8,Hadoop版本是2.7.2,与上一篇虚拟机搭建用的软件包一致。搭建基本步骤与上一篇一样,配置文件需要配置的内容也都一样。这里只说使用阿里云服务器搭建与虚拟机不同的地方。在/etc/hosts文件配置除了需要配置外网...

2019-07-18 15:45:14 1244

原创 采用Druid以及DButils简单连接数据库

目录简单介绍步骤1. 创建数据表2. 根据数据表创建一个实体类:3. 编写配置文件4. 编写工具类5. 进行CRUD操作简单介绍首先导入三个jar包:mysql-connector-java-5.1.37-bin.jar:这个jar包就不细说了,MySQL数据库对Java.sql.Driver 接口的实现。druid-1.1.10.jar:Druid数据库连接池,用法与其他大部分连...

2019-06-23 15:54:51 1314

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除