走在前往架构师的路上

专注于分布式计算,大数据,数据挖掘,机器学习算法等领域的研究

HDFS精华文章汇总

前言自2015年下半年起,笔者开始写关于Hadoop的文章(主要集中在HDFS),包括源码分析类的,问题分析解决又或者是内部机制剖析。这些文章目前汇总数量已经达到70+篇。这些文章对于笔者来说是一个宝贵的资料,这些文章见证了笔者从一名Hadoop贡献者成长为Hadoop Committer的过程。...

2017-12-03 11:45:14

阅读数 2618

评论数 3

18大经典数据挖掘算法小结

本文所有涉及到的数据挖掘代码的都放在了我的github上了:https://github.com/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等...

2015-02-27 10:04:01

阅读数 14976

评论数 17

Redis源码分析(三十六)--- Redis中的11大优秀设计

坚持了一个月左右的时间,从最开始的对Redis的代码做分类,从struct结构体分析开始,到最后分析main主程序结束,中间,各大模块的代码逐个击破,学习,总之,收获了非常多,好久没有这么久的耐心把一个框架学透,学习一个框架,会用那只是小小的一部分,能把背后的原理吃透才是真功夫。在这个学习的最后阶...

2014-11-08 10:16:37

阅读数 17266

评论数 6

HDFS数据In-place Upgrade到Ozone的原型方案

文章目录前言HDFS Upgrade到Ozone的目标 前言 熟悉了解并使用过Hadoop HDFS作为中心数据存储的同学,一定在过去或多或少地遇到过HDFS的扩展性问题,准确来说应该是HDFS NN的扩展性问题。尽管说HDFS在后面引入了诸如HDFS federation之类的方案,但这...

2019-04-16 23:38:40

阅读数 79

评论数 0

Hadoop公平调度队列FairCallQueue的优化设想

文章目录前言优化点一: FairCallQueue对于不同RPC Cost的度量优化优化点二: FairCallQueue下的资源预留支持引用 前言 Hadoop在早期实现了一种公平调度队列取代统一大队列的模式,以此解决Hadoop RPC的拥塞控制问题。简单来理解就是防止个别“不良”用户发起...

2019-04-07 23:52:16

阅读数 234

评论数 0

存储系统“数据之眼”的设计--数据探查服务

文章目录前言数据探查服务的初始点:元数据的同步数据探查服务的分析:索引结构的重新构建数据探查服务的结果:汇聚表DB的存储数据探查服务的额外功能:节点级别的统计数据探查服务的外部展现:用户控制台引用 前言 在大规模量级的分布式存储系统中,很多时候管理员以及用户都有特定条件的查询需求:比如用户哪个目...

2019-03-24 22:13:43

阅读数 6785

评论数 0

聊聊Flame Graph(火焰图)的那些事

文章目录前言 前言 当我们很多时候在分析定位一个比较隐秘的问题时,我们马上能脱口而出好几种方法,查日志找异常,再细致一点的,jmap,jstack分析stack trace。但是一般如果到了分析stack trance的阶段时,说明这个很可能已经是performance的问题了。但其实很多...

2019-03-17 16:58:08

阅读数 386

评论数 0

Dynamometer:HDFS性能扩展测试工具

文章目录前言 前言 现在稍微具有一定规模的涉及到大数据存储的公司,或多或少都会使用到HDFS作为其数据的存储系统。在不同的公司企业内,不同的应用需求对应会构建出不同级别规模的集群,小则几十台,大则成千上万个节点。当然很多时候,我们的集群规模一般不是一蹴而就就达到一个相当大的规模,在前期的时...

2019-03-13 23:11:53

阅读数 18456

评论数 0

论分布式系统中单一锁控制的优化

文章目录前言单一锁控制的弊端单一锁的优化:锁粒度的细化锁的管理锁的容量控制锁的资源优先级问题锁管理的demo样例 前言 在分布式系统中,为了保持数据操作的一致性,我们会看到锁在里面会有广泛的应用。简单一点的,我们可能就用一个简单的对象锁来做线程安全的同步。再细粒度一些的,我们会用到读写锁,然后对...

2019-03-09 16:28:19

阅读数 362

评论数 0

聊聊磁盘数据的损坏

文章目录前言数据的损坏的起因 前言 在数据存储领域,对于管理员以及用户来说,最怕的无非就一个事情:数据损坏了(这里我们暂不考虑数据被恶意篡改写入的情况)。可能很多人也会假设正常情况下,数据自己损坏的概率应该可以低到忽略不计吧…今天笔者来简单聊聊这个被很少提及的话题,以及相关针对数据损坏,我...

2019-03-06 22:33:15

阅读数 365

评论数 0

分级副本存储:一种更具效益成本的数据容错策略

文章目录前言传统三副本模式是否从根本上解决数据丢失问题Copyset数据分布策略分级存储引用 前言 众所周知,在存储系统中,为了保障数据的高可用性,我们会通过保存多个副本来防止因为机器物理故障导致数据丢失的现象。在一个集群(数据中心)内,我们会设定多个副本。甚至我们做的时候做的更完善一些,...

2019-03-03 12:15:26

阅读数 341

评论数 0

分布式存储系统中的Data Scrubbing机理

文章目录前言Data Scrubbing Vs Data CleaningData Scrubbing的缘起 前言 在大型的分布式存储系统内,当系统运行超过一段时间,个别存储节点出现数据块的损坏是再常见不过的事情了。这时候从系统层面,它最好能够自动发现并从其它节点同步副本数据。我们称这个过...

2019-02-24 11:35:19

阅读数 178

评论数 0

论一个成熟分布式系统的工具类设计

文章目录前言分布式系统工具类设计要点性能跟踪,测试工具漏斗排查分析类通用型类 前言 当作为开发者的我们在设计一套复杂分布式系统之前,很多时候,我们会忘记开发配套的一些工具程序。这个工具程序可以是常见的压力测试工具。按照惯常的压力工具的使用手法,用户能够通过命令行输入执行参数来控制压测程序的执行...

2019-02-16 23:43:29

阅读数 771

评论数 0

聊聊Raft一致性协议以及Apache Ratis

文章目录前言分布式系统中的经典问题:Consensus问题Raft算法原理 前言 在分布式系统中,有一类经典的问题经常会被提起:一致性问题。在单机环境中,这看起来根本不是一个问题。但是在多机,多服务,不同网络环境下时,一致性问题就是一个典型的问题了。在分布式系统中,当我们提到一致性问题时,...

2019-02-04 20:08:30

阅读数 519

评论数 0

ListenableFuture的状态同步和原子更新

文章目录前言ListenableFuture的监听添加ListenableFuture内的状态同步控制ListenableFuture内的Sync同步其它状态原子更新方法引用 前言 在Java8里的Future类实现中,引入了一种新的Future类:CompletableFuture。此类相比较...

2019-01-27 22:03:34

阅读数 163

评论数 0

分布式系统中Topology(Rack) Awareness的实现思路

文章目录前言为何要考虑Topology AwarenessTopology Awareness的一般实现思路Step1: Node Location赋予 前言 在分布式系统中,尤其是存储系统中,我们经常会看到类似“系统返回一个最近的数据”这样的句子”。当我们谈到一个数据“远近”的问题时,你...

2019-01-20 20:49:39

阅读数 172

评论数 0

Flink的State概述

文章目录前言Flink的State类型基本类型划分组织形式划分 前言 当我们经常在谈论一个Flink任务是否是有状态的,此时我们谈论的点其实就是Flink内部的State的概念。但是这里的State的概念已经不是单纯指我们平时所说的Event–>Sta...

2019-01-18 23:14:02

阅读数 776

评论数 0

Flink JobManager的HA原理分析

文章目录前言 前言 在中心式管理的系统里,主节点如果只是单独服务部署的话,或多或少都会存在单点瓶颈(SPOF)问题。所以我们说现在的分布式系统都要求具有高可用性(High Availability)的实现。同样的,在早期Flink runtime层面,JobManager也没有完全做到HA...

2019-01-12 11:30:20

阅读数 209

评论数 0

Flink FileSystem的connector分析

文章目录前言FileSystem的RollingSinkFileSystem连接器的Exactly Once恢复语义FileSystem Sink的文件状态转换Checkpoint下的Exactly Once恢复 前言 从目前最新的Flink代码来看,现在它能够支持越来越多的connect...

2019-01-06 12:15:10

阅读数 288

评论数 0

大数据权限授权管理框架:Apache Sentry和Ranger

文章目录前言Sentry和Ranger的概述 前言 上篇文章后半部分提到了业界流行的大数据权限管理框架Apache Sentry和Ranger。二者在功能上具有很高的相似性,但是在具体细节上上篇文章阐述的还不够细致。本文笔者来深入浅出地聊聊这两个框架,以及它们的少许异同点。熟悉掌握使用外部...

2019-01-05 12:04:14

阅读数 1038

评论数 0

提示
确定要删除当前文章?
取消 删除