自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(319)
  • 资源 (4)
  • 收藏
  • 关注

原创 Apache Flink源码分析---flink state介绍

Apache Flink源码分析---flink state介绍

2020-10-19 11:38:17 222

原创 Apache Flink源码分析---flink 序列化介绍

Apache Flink源码分析---flink 序列化介绍

2020-10-19 11:37:12 156

原创 Apache Flink源码分析---flink Table/sql介绍

Apache Flink源码分析---flink Table/sql介绍

2020-10-19 11:36:15 233

原创 Apache Flink源码分析---flink sink介绍

Apache Flink源码分析---flink sink介绍

2020-10-19 11:35:11 199

原创 Apache Flink源码分析---flink Transformation介绍

Apache Flink源码分析---flink Transformation介绍

2020-10-19 11:34:21 239

原创 Apache Flink源码分析---TaskManager SubmitJob流程

Apache Flink源码分析---TaskManager SubmitJob流程

2020-10-19 11:32:12 248

原创 Apache Flink源码分析---JobManager SubmitJob流程

Apache Flink源码分析---JobManager SubmitJob流程

2020-10-19 11:31:25 206

原创 Apache Flink源码分析---TaskManager 主要服务详解

TaskManager 在 Flink 中也被叫做⼀一个 Instance,统⼀一管理理该物理理节点上的所有Flink job 的 task 的运⾏行行,它的功能包括了了 task 的启动销毁、内存管理理、磁盘IO、⽹网络传输管理理等,本章节将介绍这些功能。TaskManager主要服务:MemoryManagerIOManagerNetworkEnvironment...

2020-10-19 11:30:50 240

原创 Apache Flink源码分析---JobManager 主要服务详解

JobManager是flink的控制节点,主要负责作业的调度、jar包管理、checkpoint的协调,本章节将介绍JobManager的一些服务。JobManager主要服务:BolbServerInstanceManagerBlobLibraryCacheManager

2020-10-19 11:26:37 251

原创 Apache Flink源码分析---flink DataSource介绍

本文主要介绍flink datasourceflink作为一个明星级别的流处理框架,编程模式很简单:1. 获取一个执行环境,并根据实际情况配置2. 加载/创建初始化数据3. 指定操作数据的transformation算子4. 指定计算好的数据存放位置5. 调用execute()出发执行程序Data Sources 是什么呢?就字面意思其实就可以知道:数据源。...

2020-10-16 16:49:33 429

原创 Apache Flink源码分析---client SubmitJob流程

本节主要介绍flink 提交作业的流程Flink作业提交 flink客户端操作都是通过flink脚本,作业提交使用run action,实例如下:[flink@dcam-hh205-hx91w bin]$ ./flink run ../examples/batch/WordCount.jarSetting HADOOP_CONF_DIR=/etc/hadoop/conf because no HADOOP_CONF_DIR was set.Executing WordCount exam.

2020-09-30 16:47:51 347

原创 Apache Flink源码分析---TaskManager启动

Flink启动主要是启动JobManager进程和TaskManager进程,本章我们总结一下TaskManager的启动流程:TaskManager启动流程:TaskMananger的启动类是:org.apache.flink.runtime.taskexecutor.TaskManagerRunner配置TaskManager启动:TaskManager入口:public static void main(String[] args) throws Exception {

2020-09-30 11:07:04 498

原创 Apache Flink源码分析---JobManager启动流程

Flink启动主要是启动JobManager进程和TaskManager进程,本章我们总结一下JobManager的启动流程:JobManager启动流程:启动类是org.apache.flink.runtime.entrypoint.StandaloneSessionClusterEntrypoint配置JobManager启动:JobManager入口:public static void main(String[] args) { // startup checks an

2020-09-29 11:14:11 1731

转载 ApacheBeam:大数据处理的一大神器!

你知道被认为继MapReduce、GFS、BigQuery等之后,Google在大数据处理领域对开源社区的又一大贡献是哪个项目吗?答案是ApacheBeam。事实上,“Beam”这个项目名称已经很清楚地表明了它的设计初衷——统一批处理(Batch)模式和数据流(Stream)处理模式的标准。今天,请跟随大圣众包威客平台的脚步,一起了解ApacheBeam到底有多炫一、ApacheBeam的用途与优势  原名GoogleDataFlow的ApacheBeam,是Google在2016年2月贡献给Apa

2020-09-21 16:02:21 706

转载 分布式日志管理平台Graylog功能介绍

分布式日志管理平台Graylog功能介绍为了让大家能够对graylog有一个完整的认识做了一个思维导图。可以看出graylog的设计是非常全面的,从日志的采集、数据分类管理、数据清洗、调用第三方API都考虑到了。而且它可以将处理后的stream发送到其他graylog集群进行二次加工,这种分布式的设计理念非常巧妙,只要你有足够的想象力,可以玩儿出很多的花样。三个不同地区的graylog集群将audit和4xx 5xx 日志汇总到另外一个graylog集群从左到右展示了g.

2020-09-09 11:24:20 1262

原创 filebeat

filebeat是什么,可以用来干嘛 filebeat的原理是怎样的,怎么构成的 filebeat应该怎么玩回到顶部一、filebeat是什么1.1、filebeat和beats的关系  首先filebeat是Beats中的一员。  Beats在是一个轻量级日志采集器,其实Beats家族有6个成员,早期的ELK架构中使用Logstash收集、解析日志,但是Logstash对内存、cpu、io等资源消耗比较高。相比Logstash,Beats所占系统的CPU和内存几乎可以忽略不计。目

2020-09-08 15:50:27 2085

转载 2020-09-02

physical id:每颗CPU的id,计算系统中有几个CPU。cpu cores:当前的CPU有几个核心。processor:每个CPU线程的id,计算系统中总计有几个CPU线程。# 总核心数 = 物理CPU个数 X 每颗物理CPU的核数# 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看CPU逻辑idgrep 'physical id' /proc/cpuinfo | sort -u# 查询物理CPU个数cat /proc/cpui

2020-09-02 18:22:32 81

转载 Redis是什么

引言在Web应用发展的初期,那时关系型数据库受到了较为广泛的关注和应用,原因是因为那时候Web站点基本上访问和并发不高、交互也较少。而在后来,随着访问量的提升,使用关系型数据库的Web站点多多少少都开始在性能上出现了一些瓶颈,而瓶颈的源头一般是在磁盘的I/O上。而随着互联网技术的进一步发展,各种类型的应用层出不穷,这导致在当今云计算、大数据盛行的时代,对性能有了更多的需求,主要体现在以下四个方面:低延迟的读写速度:应用快速地反应能极大地提升用户的满意度 支撑海量的数据和流量:对于搜索这样大型应用而

2020-09-01 16:39:14 213

原创 JAVA IO教程

Java IO 是一套Java用来读写数据(输入和输出)的API。java.io 包并没有涵盖所有输入输出类型。例如,并不包含GUI或者网页上的输入输出,这些输入和输出在其它地方都涉及,比如Swing工程中的JFC (Java Foundation Classes) 类,或者J2EE里的Servlet和HTTP包。Java.io 包主要涉及文件,网络数据流,内存缓冲等的输入输出。输入和输出 :输入流可以理解为向内存输入,输出流可以理解为从内存输出。Java的IO包主要关注的是从原始数据源

2020-08-21 11:23:28 153

原创 JAVA Reflection教程

本节会深入的去理解Java反射机制,主要阐述Java反射机制的基本原理包括如何去使用数组,注解,泛型以及动态代理还有类的动态加载以及类的重载的实现。同时也会向你展示如何实现一些比较有特性的功能,比如从一个类中读取所有的get/set方法,或者访问一个类的私有变量以及私有方法。同时也会说明一些非反射相关的但是令人困惑的问题,比如哪些泛型信息在运行时是有效的,一些人声称所有的泛型信息在运行期都会消失,其实这是不对的。Java反射机制功能强大而且非常实用。让我们在编译期(Compile Time)之外的运行.

2020-08-19 17:01:08 133

原创 JAVA高并发--多线程基础

快速认识线程:线程定义:操作系统中对线程的定义是:线程(thread)是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。每个线程都有自己的局部变量表、程序计数器、以及生命周期。线程生命周期:通过上图我们可以知道线程的生命周期主要为五个阶段:NEW: NEW只是创建了一个线程对象,并不处于执行状态,因为没有调用start启动线程。New状态通过start

2020-08-18 17:21:46 164

原创 Apache Flink源码分析---脚本启动流程

本节主要讲解flink支持的各种部署配置,以及高可用(HA)配置。

2020-08-18 14:03:40 440

原创 Apache Flink 快速入门

本节我们快速实现一个Flink入门案例,借此了解Flink依赖配置及程序开发步骤。本节开发为java,开发工具使用IDEA,依赖管理为maven。创建maven工程:如图创建maven工程配置Flink依赖: <!-- Apache Flink dependencies --> <!-- These dependencies are provided, because they should not be packaged into the JAR file.

2020-08-18 13:59:24 184

原创 Apache Flink 介绍

本章主要介绍flink基本原理:flink架构、flink组件、flink流批处理对比、flink特点、flink的一些应用场景、flink术语介绍Apache Flink 是一个在无界和有界数据流上进行状态计算的框架和分布式处理引擎。Flink 已经可以在所有常见的集群环境中运行,并以 in-memory 的速度和任意的规模进行计算。Flink特点:Flink是一个开源的流处理框架,具有一下特点:分布式:flink程序可以运行在多台机器上高性能:处理性能高高可用:支持高可用(ha.

2020-08-18 11:29:46 173 1

原创 logstash

Elasticsearch是当前主流的分布式大数据存储和搜索引擎,可以为用户提供强大的全文本检索能力,广泛应用于日志检索,全站搜索等领域。Logstash作为Elasicsearch常用的实时数据采集引擎,可以采集来自不同数据源的数据,并对数据进行处理后输出到多种输出源,是Elastic Stack 的重要组成部分。本文从Logstash的工作原理,使用示例,部署方式及性能调优等方面入手,为大家提供一个快速入门Logstash的方式。文章最后也给出了一些深入了解Logstash的的链接,以方便大家根据需要详

2020-08-05 18:10:34 154

原创 如何在 Flink 1.9 中使用 Hive?

Flink on Hive 介绍SQL 是大数据领域中的重要应用场景,为了完善 Flink 的生态,发掘 Flink 在批处理方面的潜力,我们决定增强 FlinkSQL 的功能,从而让用户能够通过 Flink 完成更多的任务。Hive 是大数据领域最早出现的 SQL 引擎,发展至今有着丰富的功能和广泛的用户基础。之后出现的 SQL 引擎,如 Spark SQL、Impala 等,都在一定程度上提供了与 Hive 集成的功能,从而方便用户使用现有的数据仓库、进行作业迁移等。因此我们认为提供与 Hive

2020-06-28 15:58:46 673

原创 flink源码阅读---DataStream API编程指南

在Flink中的DataStream程序是实现数据流转换的常规程序(例如,过滤,更新状态,定义窗口,聚合)。数据流最初是从各种来源创建的(例如,消息队列、套接字流、文件)。结果通过接收器返回,例如,接收器可以将数据写入文件或标准输出(例如命令行终端)。Flink程序可以在各种上下文中运行,可以独立运行,也可以嵌入到其他程序中。可以在本地JVM中执行,也可以在许多机器的集群上执行。Flink程序的解剖:Obtain anexecution environment, Load/create the .

2020-06-15 19:40:41 253

原创 splunk简介

最近在写一个日志管理平台的系统,底层借鉴了graylog,今天我们领导告诉我splunk是业界的顶端,希望我们向splunk看齐。所以下午整个时间研究一下splunk。本次研究方向是splunk产品的功能特点,代码的东西就不再做分析了。splunk简单定义:单点、实时搜索并分析所有IT系统所产生的数据,还能确保快速的故障排除和事件审查。提供了强大的统计分析和关联功能。除此之外,它还提供了用于告警、监测、报告和分析的交互式用户界面。Splunk 软件可在单点实时搜索、报告、监测并分析企业IT设施中

2020-06-15 10:18:18 3295

转载 Flink 源码解析 —— 项目结构一览

Flink 源码项目结构一览https://t.zsxq.com/MNfAYne博客1、Flink 从0到1学习 —— Apache Flink 介绍2、Flink 从0到1学习 —— Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序入门3、Flink 从0到1学习 —— Flink 配置文件详解4、Flink 从0到1学习 —— Data Source 介绍5、Flink 从0到1学习 —— 如何自定义 Data Source ?6、Flink 从0到1学习 —

2020-06-09 17:32:10 328

原创 flink源码阅读---DataStream数据架构描述1-core底层 架构

flink提供了流计算和批计算,对应的api分别数dataStream api和dataSet api,下面我们从源码层面对dataStream进行简单分析。DataStream数据结构:DataStream表示相同类型的元素流。一个DataStream可以通过应用转换为另一个DataStream。DataStream包含StreamExecutionEnvironment上下文和Transformation,Transformation表示创建datastream的操作。DataStre

2020-06-09 14:49:22 630

原创 flink源码阅读---单作业单集群作业提交流程

flink on yarn 模式支持两种部署方式:1. 多作业但集群2. 单作业但集群本文主要介绍单作业单集群下作业提交流程:核心组件:Job CLI: 即flink run,非 detatched 模式下的客户端进程,用以获取 yarn Application Master 的运行状态并将日志输出掉终端Job Manager[JM]: 负责作业的运行计划ExecutionGraph的生成,物理计划生成和作业调度TaskManager[TM]:负责被分发 task 的执行、心跳/

2020-06-09 09:13:43 472

原创 flink源码阅读---stream开发流程

开发流程:flink开发流程比较固化,一般分为一下几个阶段:1.获取一个执行环境ExecutionEnvironment/StreamExecutionEnvironment2.加载/初始化数据源返回数据集 source3.数据加工 transcation4.指定数据存放位置 sink5.调用execute()出发执行程序下面我们正对stream计算对每个阶段做详细介绍:StreamExecutionEnvironmentStreamExecutionEnviron..

2020-06-08 09:47:06 370

原创 flink源码阅读---yarn启动流程

flink on yarn有两种模式:yarn-seeion 和yarn-job:yarn-seeion:在yarn中初始化一个flink集群,任务都提交到flink集群,flink集群会常驻yarn中,除非手动停止。yarn-job:每次提交的任务都会创建一个新的flink集群,任务间相互独立,任务执行完之后flink集群消失。yarn-session 在yarn中初始化一个flink集群,任务都提交到flink集群,flink集群会常驻yarn中,除非手动停止。创建集群:...

2020-06-05 09:30:15 248

原创 flink源码阅读---local启动流程

启动脚本:start-cluster.shbin=`dirname "$0"`bin=`cd "$bin"; pwd`. "$bin"/config.sh# Start the JobManager instance(s)shopt -s nocasematchif [[ $HIGH_AVAILABILITY == "zookeeper" ]]; then # HA Mode readMasters echo "Starting HA cluster with .

2020-06-03 16:55:15 229

原创 深入浅出Netflix Conductor使用

Netflix Conductor框架是典型的服务编排框架,通过Conductor还可以实现工作流和分布式调度,性能非常卓越。关于Conductor的基本概念在 https://netflix.github.io/conductor/intro/ 文中已经有深入介绍,本篇将以实战案例为出发点深入介绍Conductor的使用。一、Conductor的功能全景图image.png在正式使用之前我们先来了解Conductor都有哪些功能,通过流程、任务、历史、监控、客户端、通信和管理后台几个层

2020-05-28 14:22:45 2207

原创 数据湖方案:Hudi、Delta、Iceberg深度对比

目前市面上流行的三大开源数据湖方案分别为:delta、Apache Iceberg和Apache Hudi。其中,由于Apache Spark在商业化上取得巨大成功,所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目,它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点,加上项目各成员积极地社区建设,包括技术细节分享、国内社区..

2020-05-25 19:02:29 3151

原创 分布式对象存储解决方案

分布式对象存储解决方案OSS(Object Storage Service)俗称对象存储,主要提供图片、文档、音频、视频等二进制文件的海量存储功能。目前除了公有云提供对象存储服务外,一般私有云比较关心一些开源的分布式对象存储解决方案,本文列举了一些常见的技术方案供参考。概念普识块存储通常SAN(Storage Area Network)结构的产品属于块存储,比如我们常见的硬盘、磁盘阵列等物理盘。文件存储一般NAS(Network Attached Storage)产品都是文件级存储,

2020-05-25 17:37:10 2210

原创 atlas 编译安装

Atlas 源代码编译下载源代码$ git clone https://github.com/apache/atlas.git$ git switch -c remotes/origin/branch-2.0修改Maven默认仓库到阿里巴巴仓库$ vim settings.xml添加以下代码到 mirrors<mirror> <id>aliyunmaven</id> <mirrorOf>*</mirr

2020-05-16 10:30:48 593

原创 ElasticSearch 分片(Shards)的详解

分片重要性ES中所有数据均衡的存储在集群中各个节点的分片中,会影响ES的性能、安全和稳定性, 所以很有必要了解一下它。分片是什么?简单来讲就是咱们在ES中所有数据的文件块,也是数据的最小单元块,整个ES集群的核心就是对所有分片的分布、索引、负载、路由等达到惊人的速度实列场景:假设 IndexA 有2个分片,我们向 IndexA 中插入10条数据 (10个文档),那么这10条数据会尽可能平均的分为5条存储在第一个分片,剩下的5条会存储在另一个分片中。和主流关系型数据库的表分区的概念有

2020-05-13 13:59:28 4032

原创 hbase 配置

HBase使用与Hadoop相同的配置系统,所有配置文件都位于 conf/ 目录中,需要保持群集中每个节点的同步。配置文件说明backup-masters - 这是一个纯文本文件,其中列出了主服务器应在其上启动备份主进程的主机列表,每行一台主机名(默认情况下不存在) hadoop-metric2-hbase.properties - 用于连接HBase和Hadoop的Metric2框架,...

2020-05-07 19:23:11 409

janusgraph部署开发.docx

JanusGraph over HBase支持全局顶点和边缘迭代。但是,请注意,所有这些顶点和/或边都将加载到内存中,这可能会导致OutOfMemoryException。使用JanusGraph和TinkerPop的Hadoop-Gremlin有效地遍历大型图中的所有顶点或边。

2020-05-15

graylog日志检索系统调研.docx

graylog 调研 --安装 源代码分析 1. Graylog 作为一个开源项目,类没有一行注释,真的是很难想象,

2020-04-26

【恩墨学院】CDH集群的企业部署.pdf

cdh安装及部署文档:操作系统修改,cm安装,cdh安装.///

2019-10-16

Oozie的安装与配置.docx

oozie安装文件:Oozie的安装与配置及自带example演示。1111

2019-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除