走在前往架构师的路上

专注于分布式计算,大数据,数据挖掘,机器学习算法等领域的研究

Flink的State概述

文章目录前言Flink的State类型基本类型划分组织形式划分 前言 当我们经常在谈论一个Flink任务是否是有状态的,此时我们谈论的点其实就是Flink内部的State的概念。但是这里的State的概念已经不是单纯指我们平时所说的Event–>Sta...

2019-01-18 23:14:02

阅读数:201

评论数:0

Flink JobManager的HA原理分析

文章目录前言 前言 在中心式管理的系统里,主节点如果只是单独服务部署的话,或多或少都会存在单点瓶颈(SPOF)问题。所以我们说现在的分布式系统都要求具有高可用性(High Availability)的实现。同样的,在早期Flink runtime层面,JobManager也没有完全做到HA...

2019-01-12 11:30:20

阅读数:53

评论数:0

Flink FileSystem的connector分析

文章目录前言FileSystem的RollingSinkFileSystem连接器的Exactly Once恢复语义FileSystem Sink的文件状态转换Checkpoint下的Exactly Once恢复 前言 从目前最新的Flink代码来看,现在它能够支持越来越多的connect...

2019-01-06 12:15:10

阅读数:79

评论数:0

大数据权限授权管理框架:Apache Sentry和Ranger

文章目录前言Sentry和Ranger的概述 前言 上篇文章后半部分提到了业界流行的大数据权限管理框架Apache Sentry和Ranger。二者在功能上具有很高的相似性,但是在具体细节上上篇文章阐述的还不够细致。本文笔者来深入浅出地聊聊这两个框架,以及它们的少许异同点。熟悉掌握使用外部...

2019-01-05 12:04:14

阅读数:288

评论数:0

流计算过程中对于窗口的处理方式

前言 与传统批处理作业方式不同,实时流的计算处理过程是连续的。所以当我们在流式作业中要做传统的阶段统计工作(求和,取均值计算)的时候,需要在逻辑上对这些数据进行分片,然后再处理。本文我们来聊聊流计算过程中按照时间的处理方式。 Window的概念 在传统批处理的作业执行方式里,我们可以...

2018-12-12 10:52:50

阅读数:164

评论数:0

当我们在谈论Flink的时候,我们到底在谈论些什么

前言 目前每当我们聊到当下热门的计算引擎的时候,无一例外地会聊到Apache Flink:当下非常火热的流处理计算框架。更是有人拿它和Spark做对比,到底哪个才是现今最好的计算引擎。当然这个已经不是本文所要阐述的主题啦。老实话,笔者本人做的比较多的还是存储领域,对计算领域的知识不敢说是内行...

2018-12-08 15:43:12

阅读数:223

评论数:0

HDFS源码分析(二)-----元数据备份机制

前言在Hadoop中,所有的元数据的保存都是在namenode节点之中,每次重新启动整个集群,Hadoop都需要从这些持久化了的文件中恢复数据到内存中,然后通过镜像和编辑日志文件进行定期的扫描与合并,ok,这些稍微了解Hadoop的人应该都知道,这不就是SecondNameNode干的事情嘛,但是...

2015-08-15 17:47:02

阅读数:3131

评论数:3

Hadoop分布式文件系统--HDFS结构分析

前言在Hadoop内部,具体实现了许多类的文件系统,当然最最被我们用到的就是他的分布式文件系统HDFS了。但是本篇文章不会讲HDFS的主从架构等东西,因为这些东西网上和资料书中都讲得很多了。所以,我决定以我个人的学习所得,来讲讲HDFS内部的一些有意思的东西,也作为一个起始点,为后续继续深入其中模...

2015-08-09 16:57:52

阅读数:3241

评论数:2

Storm自定义调度器实现--DirectScheduler

前言最近在研究Storm的任务调度相关的知识,于是就想要试着去改造一下Storm的任务调度,来满足一下现实状况中的一些场景。Storm调度的相关术语在看Storm的Scheduler代码么之前,得要弄明白几个概念,这样可以帮助大家更好的理解后面的调度过程。 1、slot。这代表一个Supervi...

2015-07-10 20:52:25

阅读数:3252

评论数:0

Hadoop Balancer源码解读

前言 最近在做一些Hadoop运维的相关工作,发现了一个有趣的问题,我们公司的Hadoop集群磁盘占比数值参差不齐,高的接近80%,低的接近40%,并没有充分利用好上面的资源,但是balance的操作跑的也是正常的啊,所以打算看一下Hadoop的balance的源代码,更深层次的去了解Hadoo...

2015-06-10 19:58:43

阅读数:5000

评论数:8

Zookeeper学习

前言 一般人对于zookeeper的绝大多数印象就是他是用来做协调服务的,不管说是Hadoop,HBase,Storm等等这些计算平台,都或多或少用到了这个zookeeper"动物管理员"。使用的方法都很简单,首先搭建一个zookeeper集群,然后在配置文件中指定一下ip:...

2015-06-07 21:42:23

阅读数:2757

评论数:0

Storm系统架构以及代码结构学习

前言 什么是storm,storm是做什么的,一个简单的描述,你可以理解为是一个“准实时”的Hadoop,Hadoop是专门做的是离线数据处理,而storm则弥补了Hadoop在这方面的不足,他是一个实时数据处理的平台。至于Storm的各种由来,就不一一在这里废话了,之前我写的某篇文章讲述了部分的...

2015-05-24 21:13:53

阅读数:3501

评论数:1

HBase简单介绍

前言 本周学习了部分关于Hadoop生态圈周边的一些系统,简单的做个小结,本篇文章主要讲的是HBase的介绍。HBase是一个在HDFS上构建的面向列的分布式数据库,他与传统的RDBMS还是有许多的不同之处的。HBase的出现可以解决海量数据存储的问题,而且他可以比较容易的解决伸缩性的问题,这个...

2015-05-10 20:46:28

阅读数:1692

评论数:0

爬虫的学习分析

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富...

2015-04-21 22:23:55

阅读数:3100

评论数:1

高级数据库典型技术

数据库作为计算机学科中一个比较重要的分支,也是一个对于程序员来说非常好的学习方向。平时我们用的最多的,同时也是接触最多的一定是增删改查语句,select, update,delete等,当然,我不会拿这些再说一遍,这些都是老的掉渣的东西了。所以我们可以学习高级数据库中所以涉及的技术。换句话,其实就...

2014-10-09 21:18:36

阅读数:2233

评论数:0

大话NoSql

之前看过一本名叫大数据挑战的书>>,里面主要讲了NOSQL的内容,感觉讲得确实不错,今天来重新温习一下,我们大话NOSQL。说道NOSQL,我们肯定联想到的内容就是BigData大数据了,不错,当今的时代就是大数据的时代了。如果放在前几年,互联网还没有这么发达的情况下,也许谁也不会听过...

2014-10-03 17:10:29

阅读数:2640

评论数:0

Hadoop入门分析

今天本人复习了一下,当下最流行的分布式计算平台,Hadoop,在此平台上开发,可以屏蔽程序员在大数据处理上的所要考虑的各种,多线程,高并发的问题。好,下面就好好的了解一下什么是Hadoop。   Hadoop是Apache旗下的一个开源分布式平台。以Hadoop文件系统(HDFS)和MapRed...

2014-09-30 10:56:52

阅读数:1407

评论数:0

淘宝架构技术的演变

我们都知道,淘宝网的横空出世是在2003年,也就是但年SARS流行的时候,当初淘宝用的是现在看来也是十分流行的LAMP架构,即Linux+Apache+MySql+Php,的一个非常常用的架构模型,当时淘宝已经使数据库实现了读写分离,从数据库都只能是支持只读操作,在主数据库上才能进行写操作,同时,...

2014-09-28 15:48:08

阅读数:3484

评论数:0

网站架构优化1,2,3,下面的几点你都用到了吗

本周闲着无聊,学习了下网站优化的相关知识,一个类似BAT这样每日访问几百万pv的网站,是如何做到不崩溃的。下面总结主要的几点:    1.前段优化,zhi

2014-08-04 11:48:44

阅读数:1239

评论数:0

提示
确定要删除当前文章?
取消 删除