wandy0211-CSDN博客

TaskManager 在 Flink 中也被叫做⼀一个 Instance，统⼀一管理理该物理理节点上的所有Flink job 的 task 的运⾏行行，它的功能包括了了 task 的启动销毁、内存管理理、磁盘IO、⽹网络传输管理理等，本章节将介绍这些功能。TaskManager主要服务：MemoryManagerIOManagerNetworkEnvironment...

2020-10-19 11:30:50 240

原创 Apache Flink源码分析---JobManager 主要服务详解

JobManager是flink的控制节点，主要负责作业的调度、jar包管理、checkpoint的协调，本章节将介绍JobManager的一些服务。JobManager主要服务：BolbServerInstanceManagerBlobLibraryCacheManager

2020-10-19 11:26:37 251

原创 Apache Flink源码分析---flink DataSource介绍

本文主要介绍flink datasourceflink作为一个明星级别的流处理框架，编程模式很简单：1. 获取一个执行环境，并根据实际情况配置2. 加载/创建初始化数据3. 指定操作数据的transformation算子4. 指定计算好的数据存放位置5. 调用execute()出发执行程序Data Sources 是什么呢？就字面意思其实就可以知道：数据源。...

2020-10-16 16:49:33 429

原创 Apache Flink源码分析---client SubmitJob流程

本节主要介绍flink 提交作业的流程Flink作业提交 flink客户端操作都是通过flink脚本，作业提交使用run action，实例如下：[flink@dcam-hh205-hx91w bin]$ ./flink run ../examples/batch/WordCount.jarSetting HADOOP_CONF_DIR=/etc/hadoop/conf because no HADOOP_CONF_DIR was set.Executing WordCount exam.

2020-09-30 16:47:51 347

原创 Apache Flink源码分析---TaskManager启动

Flink启动主要是启动JobManager进程和TaskManager进程，本章我们总结一下TaskManager的启动流程：TaskManager启动流程：TaskMananger的启动类是：org.apache.flink.runtime.taskexecutor.TaskManagerRunner配置TaskManager启动:TaskManager入口：public static void main(String[] args) throws Exception {

2020-09-30 11:07:04 498

原创 Apache Flink源码分析---JobManager启动流程

Flink启动主要是启动JobManager进程和TaskManager进程，本章我们总结一下JobManager的启动流程：JobManager启动流程：启动类是org.apache.flink.runtime.entrypoint.StandaloneSessionClusterEntrypoint配置JobManager启动：JobManager入口：public static void main(String[] args) { // startup checks an

2020-09-29 11:14:11 1731

转载 ApacheBeam：大数据处理的一大神器！

你知道被认为继MapReduce、GFS、BigQuery等之后，Google在大数据处理领域对开源社区的又一大贡献是哪个项目吗？答案是ApacheBeam。事实上，“Beam”这个项目名称已经很清楚地表明了它的设计初衷——统一批处理（Batch）模式和数据流（Stream）处理模式的标准。今天，请跟随大圣众包威客平台的脚步，一起了解ApacheBeam到底有多炫一、ApacheBeam的用途与优势　　原名GoogleDataFlow的ApacheBeam，是Google在2016年2月贡献给Apa

2020-09-21 16:02:21 706

转载分布式日志管理平台Graylog功能介绍

分布式日志管理平台Graylog功能介绍为了让大家能够对graylog有一个完整的认识做了一个思维导图。可以看出graylog的设计是非常全面的，从日志的采集、数据分类管理、数据清洗、调用第三方API都考虑到了。而且它可以将处理后的stream发送到其他graylog集群进行二次加工，这种分布式的设计理念非常巧妙，只要你有足够的想象力，可以玩儿出很多的花样。三个不同地区的graylog集群将audit和4xx 5xx 日志汇总到另外一个graylog集群从左到右展示了g.

2020-09-09 11:24:20 1262

原创 filebeat

filebeat是什么，可以用来干嘛 filebeat的原理是怎样的，怎么构成的 filebeat应该怎么玩回到顶部一、filebeat是什么1.1、filebeat和beats的关系　　首先filebeat是Beats中的一员。　　Beats在是一个轻量级日志采集器，其实Beats家族有6个成员，早期的ELK架构中使用Logstash收集、解析日志，但是Logstash对内存、cpu、io等资源消耗比较高。相比Logstash，Beats所占系统的CPU和内存几乎可以忽略不计。目

2020-09-08 15:50:27 2085

转载 2020-09-02

physical id：每颗CPU的id，计算系统中有几个CPU。cpu cores：当前的CPU有几个核心。processor：每个CPU线程的id，计算系统中总计有几个CPU线程。# 总核心数 = 物理CPU个数 X 每颗物理CPU的核数# 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看CPU逻辑idgrep 'physical id' /proc/cpuinfo | sort -u# 查询物理CPU个数cat /proc/cpui

2020-09-02 18:22:32 81

转载 Redis是什么

引言在Web应用发展的初期，那时关系型数据库受到了较为广泛的关注和应用，原因是因为那时候Web站点基本上访问和并发不高、交互也较少。而在后来，随着访问量的提升，使用关系型数据库的Web站点多多少少都开始在性能上出现了一些瓶颈，而瓶颈的源头一般是在磁盘的I/O上。而随着互联网技术的进一步发展，各种类型的应用层出不穷，这导致在当今云计算、大数据盛行的时代，对性能有了更多的需求，主要体现在以下四个方面：低延迟的读写速度：应用快速地反应能极大地提升用户的满意度支撑海量的数据和流量：对于搜索这样大型应用而

2020-09-01 16:39:14 213

原创 JAVA IO教程

Java IO 是一套Java用来读写数据（输入和输出）的API。java.io 包并没有涵盖所有输入输出类型。例如，并不包含GUI或者网页上的输入输出，这些输入和输出在其它地方都涉及，比如Swing工程中的JFC (Java Foundation Classes) 类，或者J2EE里的Servlet和HTTP包。Java.io 包主要涉及文件，网络数据流，内存缓冲等的输入输出。输入和输出：输入流可以理解为向内存输入，输出流可以理解为从内存输出。Java的IO包主要关注的是从原始数据源

2020-08-21 11:23:28 153

原创 JAVA Reflection教程

本节会深入的去理解Java反射机制，主要阐述Java反射机制的基本原理包括如何去使用数组，注解，泛型以及动态代理还有类的动态加载以及类的重载的实现。同时也会向你展示如何实现一些比较有特性的功能，比如从一个类中读取所有的get/set方法，或者访问一个类的私有变量以及私有方法。同时也会说明一些非反射相关的但是令人困惑的问题，比如哪些泛型信息在运行时是有效的，一些人声称所有的泛型信息在运行期都会消失，其实这是不对的。Java反射机制功能强大而且非常实用。让我们在编译期(Compile Time)之外的运行.

2020-08-19 17:01:08 133

原创 JAVA高并发--多线程基础

快速认识线程：线程定义：操作系统中对线程的定义是：线程（thread）是操作系统能够进行运算调度的最小单位。它被包含在进程之中，是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流，一个进程中可以并发多个线程，每条线程并行执行不同的任务。每个线程都有自己的局部变量表、程序计数器、以及生命周期。线程生命周期：通过上图我们可以知道线程的生命周期主要为五个阶段：NEW: NEW只是创建了一个线程对象，并不处于执行状态，因为没有调用start启动线程。New状态通过start

2020-08-18 17:21:46 164

原创 Apache Flink源码分析---脚本启动流程

本节主要讲解flink支持的各种部署配置，以及高可用(HA)配置。

2020-08-18 14:03:40 440

原创 Apache Flink 快速入门

本节我们快速实现一个Flink入门案例，借此了解Flink依赖配置及程序开发步骤。本节开发为java，开发工具使用IDEA，依赖管理为maven。创建maven工程：如图创建maven工程配置Flink依赖：  <!-- These dependencies are provided, because they should not be packaged into the JAR file.

2020-08-18 13:59:24 184

原创 Apache Flink 介绍

本章主要介绍flink基本原理：flink架构、flink组件、flink流批处理对比、flink特点、flink的一些应用场景、flink术语介绍Apache Flink 是一个在无界和有界数据流上进行状态计算的框架和分布式处理引擎。Flink 已经可以在所有常见的集群环境中运行，并以 in-memory 的速度和任意的规模进行计算。Flink特点：Flink是一个开源的流处理框架，具有一下特点：分布式：flink程序可以运行在多台机器上高性能：处理性能高高可用：支持高可用（ha.

2020-08-18 11:29:46 173 1

原创 logstash

Elasticsearch是当前主流的分布式大数据存储和搜索引擎，可以为用户提供强大的全文本检索能力，广泛应用于日志检索，全站搜索等领域。Logstash作为Elasicsearch常用的实时数据采集引擎，可以采集来自不同数据源的数据，并对数据进行处理后输出到多种输出源，是Elastic Stack 的重要组成部分。本文从Logstash的工作原理，使用示例，部署方式及性能调优等方面入手，为大家提供一个快速入门Logstash的方式。文章最后也给出了一些深入了解Logstash的的链接，以方便大家根据需要详

2020-08-05 18:10:34 154

原创如何在 Flink 1.9 中使用 Hive？

Flink on Hive 介绍SQL 是大数据领域中的重要应用场景，为了完善 Flink 的生态，发掘 Flink 在批处理方面的潜力，我们决定增强 FlinkSQL 的功能，从而让用户能够通过 Flink 完成更多的任务。Hive 是大数据领域最早出现的 SQL 引擎，发展至今有着丰富的功能和广泛的用户基础。之后出现的 SQL 引擎，如 Spark SQL、Impala 等，都在一定程度上提供了与 Hive 集成的功能，从而方便用户使用现有的数据仓库、进行作业迁移等。因此我们认为提供与 Hive

2020-06-28 15:58:46 673

原创 flink源码阅读---DataStream API编程指南

在Flink中的DataStream程序是实现数据流转换的常规程序(例如，过滤，更新状态，定义窗口，聚合)。数据流最初是从各种来源创建的(例如，消息队列、套接字流、文件)。结果通过接收器返回，例如，接收器可以将数据写入文件或标准输出(例如命令行终端)。Flink程序可以在各种上下文中运行，可以独立运行，也可以嵌入到其他程序中。可以在本地JVM中执行，也可以在许多机器的集群上执行。Flink程序的解剖:Obtain anexecution environment, Load/create the .

2020-06-15 19:40:41 253

janusgraph部署开发.docx

graylog日志检索系统调研.docx

【恩墨学院】CDH集群的企业部署.pdf

Oozie的安装与配置.docx

空空如也