[置顶] 18大经典数据挖掘算法小结

本文所有涉及到的数据挖掘代码的都放在了我的github上了:https://github.com/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希...
阅读(12299) 评论(15)

[置顶] Redis源码分析(三十六)--- Redis中的11大优秀设计

坚持了一个月左右的时间,从最开始的对Redis的代码做分类,从struct结构体分析开始,到最后分析main主程序结束,中间,各大模块的代码逐个击破,学习,总之,收获了非常多,好久没有这么久的耐心把一个框架学透,学习一个框架,会用那只是小小的一部分,能把背后的原理吃透才是真功夫。在这个学习的最后阶段,是时候要来点干货了,我把这1个多月来的一些总结的一些比较好的代码,和设计思想总结出来了,原本想凑成...
阅读(12824) 评论(6)

HDFS基于路由的Federation方案

前言最近几天,Hadoop官方社区发布了2.9.0版本,这也是第一个2.9开头的小版本。相比较于之前的2.8版本,2.9版本中新增了不少新功能特性。其中关于HDFS模块的一个重要功能是HDFS Router Federation(基于路由的Federation)。有人可能好奇,这个功能与目前HDFS支持的federation功能有什么区别呢?一句话简单的来讲,就是之前federation是通过多na...
阅读(4) 评论(0)

聊聊HDFS和Ozone的融合

前言Ozone的出现的初衷就是要解决HDFS namespace的扩展性问题,那么现在问题了,未来如何将这两大从设计上上来已经完全大改变的系统整合起来呢?这个听起来非常有意思,本文笔者结合最近社区的一些讨论,来简单聊聊这个话题。Ozone的核心结构社区在设计Ozone的时候,提出了一个具有关键性意义的概念:Storage Container。而不是HDFS中的块(block)概念。二者的关系是:St...
阅读(94) 评论(0)

HDFS数据不均衡解决方案:基于剩余空间大小的均衡策略

前言相信对于广大的Hadoop集群的使用者和维护者,集群在长时间的使用过程中,肯定或多或少碰到节点间数据不均衡的现象。比如有些节点可能磁盘使用率已经达到90%,而有些节点可能就10%。当然我们说,在使用百分比明细不均衡的情况下,我们可以用HDFS提供的Balancer工具帮我们解决这个问题。但是这不能解决所有的情况,比如说存在异构节点的集群。举一个简单的例子,集群内2个节点:A节点磁盘容量100T,...
阅读(165) 评论(0)

HDFS Ozone整体概述

前言 HDFS Ozone对象存储最近会有一个大动作:merge到主代码分支。这就动作具有十分大的意义,因为它意味着Ozone将在下一个最近发布的hadoop版本中出现并可以被广大用户所使用。所以在这个背景下,Ozone第一版本的代码和结构基本已经确定完毕,这个时候,我们再从大的层面来学习、了解这个框架、体系显然还是很有必要的。官方社区已经有许多相应的介绍文档在介绍这方面的内容了。笔者也大致...
阅读(321) 评论(0)

HDFS Ozone的Pipeline实现机制

前言 在现有HDFS中,每个副本块默认有3个副本,我们都知道这是为了容错而设计的。为了保持这3个副本的数据一致性,HDFS每次对数据进行写操作的时候,都是以Pipeline的方式进行更新。你可以理解为是一种流水线的方式:R1–>R2–>R3。中间如有一个环节出现问题,那么这次Pipeline更新就得重新来过。在HDFS对象存储服务Ozone中,同样会遇到多副本更新一致性的问题,所以它也需要有...
阅读(255) 评论(0)

状态机在分布式系统中的应用

前言在大型的分布式系统中,经常会涉及到状态的改变,这里的状态变化可以分很多种,最极端的情况是,任何状态之间都可以互相切换。这种状态之间的切换,转变,更加官方一点的称为叫状态机。这个词可能很多人会感到比较陌生,英文就是State Machine。所以如果大家在学习开源项目中,看到这个单词,指的就是状态机的意思。那么状态机有什么用途呢,为什么我们要定义这样一个概念呢?本文笔者就来简单聊聊状态机的管理。状...
阅读(469) 评论(0)

HDFS对象存储:Ozone的块异步删除服务

前言在HDFS的世界中,所有涉及元数据相关的操作都是在NameNode内完成的,真实进行文件读写和删除操作是在DataNode节点上完成的,完成好之后,再通过心跳的方式将结果汇报给NameNode。这种处理方式要比完全同步的方式好很多,尤其高吞吐数据量规模的情况下时,走同步的方式会很快遇到瓶颈的。当然了,HDFS NameNode这套机制相关文章已经写了很多了,本文笔者来介绍一个比较新的服务设计:H...
阅读(364) 评论(0)

简单聊聊死锁那些事

前言在并发计算理论知识内,死锁是一个经常被拿来谈论的话题。今天,笔者再来也来简单聊聊死锁,死锁在多进/线程操作中是怎么触发的,如果发生了,我们有什么办法解决呢?下面笔者计划从死锁的定义(发生),死锁的预防,最后到死锁的避免3个模块来重新聊聊死锁。死锁的定义笔者在这里举一个生活中的一个常见例子:比如有4辆车,分别从四个方向(东、西、南、北)开来,最后一起开到了一个十字路口上,而且这时每辆车都打算往它们...
阅读(306) 评论(0)

HDFS对象存储的版本管理设计

前言前篇文章,笔者已经大致介绍了目前HDFS对象存储服务Ozone内部的基本架构。本篇文章,笔者继续带领大家学习Ozone。今天笔者所主要阐述的主题是:Ozone的对象版本管理。版本管理是一个很实用的需求,用户往往对于一份数据会有历史版本保存的需求,不仅仅说只是为了防止未来的时候会回退到这个版本的数据。本文我们就来看看Ozone是如何支持这个功能的。目前此功能尚未开发,还处于初始设计阶段,但是并不妨...
阅读(360) 评论(0)

HDFS对象存储服务:Ozone的元数据管理

前言HDFS作为一套成熟的分布式存储系统,它能够存储TB甚至,PB规模级别的数据。依托于如此强大的存储能力,目前越来越多的公司、企业已经开始将越来越多的数据往HDFS上迁移。但是当数据量达到一定规模,HDFS不见得能承受的了。可能有人有疑问了,刚刚不是说HDFS能支撑PB规模级别的数据吗,这不是自相矛盾的说法了?其实笔者在这里想说的是元数据管理会受到瓶颈,HDFS面对如此巨大的元数据信息,凭借单单...
阅读(587) 评论(0)

聊聊副本放置方式对副本持久可用性的影响

前言在过去的很多时间内,人们在分布式数据存储领域研究关注的一点往往是数据的一致性。因为当数据以多副本的形式分散地存储在集群中,我们当然是要确保每份副本上的数据确保一致,然后我们才能读到最新的数据。所以在另一方面,也就是数据的放置位置选择方面就会缺少相对应的关注度。其实在这块领域也是有许多东西可以值得研究的,比如说副本位置的存放策略在一定程度上会影响其未来的可用性,换个更通俗易懂的说法,就是我的副本位...
阅读(1075) 评论(0)

分布式数据库学习--分布式并发控制

前言并发控制理论在分布式计算领域是一块较为重要的内容。了解和掌握好这块理论知识,将有助于我们在工作实践中解决一些复杂的难题。最近笔者学习了分布式数据库系统原理书中的分布式并发控制的相关内容,本文借此机会总结总结。并发控制的目标在往常,我们一提到并发这个词,就会马上联想到多线程这个词。这是因为我们在平时的开发工作中经常有遇到多线程的场景。但是回过头来看这个词,其实并发的场景绝不仅限于多线程操作,另外一...
阅读(614) 评论(0)

HDFS新运维工具命令之listOpenFiles命令

前言在运维集群的时候,我们有的时候需要去知道哪些文件存在未被及时关闭的情况。否则会造成一定程度上的资源泄露,比如内存无缘无故就被耗掉了。可能有人会想,好端端的文件,为什么会存在未被关闭的情况呢?答案是有可能的,当发生各种异常写文件的情况时,就有可能发生。这在HDFS内部同样也会发生。对此,社区最近在实现添加一项新的管理员命令-listOpenFiles命令来帮助集群管理者获取这些“打开中的文件”,...
阅读(546) 评论(0)

聊聊HDFS中的副本放置策略和磁盘选择策略间的选择“矛盾”

前言我们知道,在HDFS里,有2个与文件块写入紧密相连的策略选择类:副本放置策略(BlockPlacementPolicy)和磁盘选择策略(VolumeChoosingPolicy)。这两者有什么作用上的区别呢?前者决定了文件块的目标写入节点,后者决定了目标节点上哪个磁盘目录被写入。之前笔者已经写过相关策略的介绍文章了,感兴趣的同学可以点击此链接:HDFS副本放置策略和DataNode引用计数磁盘...
阅读(905) 评论(0)

HDFS的新方向:Ozone对象存储

前言HDFS在近几年中得到了迅速的发展,作为性价比比较高的存储系统,用户、企业只需利用若干台低配廉价的节点机型,就可以构建能够承受TB甚至PB级别的大数据集群,然后在上面做各种类型任务的作业,而且在底层方面,我们完全可以依赖HDFS自身实现的容错机制来应当各种异常情况。但是在当今数据使用场景日益多元化的背景下,HDFS并不是能满足所有的应用需求。如何能够以一种更加高效,方便的方式去存储用户想要保存的...
阅读(2248) 评论(0)
265条 共18页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1235217次
    • 积分:12005
    • 等级:
    • 排名:第1376名
    • 原创:263篇
    • 转载:0篇
    • 译文:2篇
    • 评论:289条
    博主介绍
      Apache Hadoop Committer,其中主要专注于HDFS模块。毕业于HDU计算机系,研究领域分布式存储。曾就职于国内女性电商平台蘑菇街,目前就职于唯品会上海研发中心,数据平台与应用部门。
    新书发布
      新书<<深度剖析Hadoop HDFS>>发布上市,此书源自于笔者博客,重新经过整理,完善而成,此书的定位并不是一本纯源码分析的书籍,其中有许多笔者在工作和学习中对于HDFS的一些有趣的看法和理解。 链接:
    博客专栏
    最新评论