[置顶] 18大经典数据挖掘算法小结

本文所有涉及到的数据挖掘代码的都放在了我的github上了:https://github.com/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间,自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现,涉及到了决策分类,聚类,链接挖掘,关联挖掘,模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结,后面都是我自己相应算法的博文链接,希...
阅读(11820) 评论(15)

[置顶] Redis源码分析(三十六)--- Redis中的11大优秀设计

坚持了一个月左右的时间,从最开始的对Redis的代码做分类,从struct结构体分析开始,到最后分析main主程序结束,中间,各大模块的代码逐个击破,学习,总之,收获了非常多,好久没有这么久的耐心把一个框架学透,学习一个框架,会用那只是小小的一部分,能把背后的原理吃透才是真功夫。在这个学习的最后阶段,是时候要来点干货了,我把这1个多月来的一些总结的一些比较好的代码,和设计思想总结出来了,原本想凑成...
阅读(11513) 评论(6)

HDFS Ozone的Pipeline实现机制

前言 在现有HDFS中,每个副本块默认有3个副本,我们都知道这是为了容错而设计的。为了保持这3个副本的数据一致性,HDFS每次对数据进行写操作的时候,都是以Pipeline的方式进行更新。你可以理解为是一种流水线的方式:R1–>R2–>R3。中间如有一个环节出现问题,那么这次Pipeline更新就得重新来过。在HDFS对象存储服务Ozone中,同样会遇到多副本更新一致性的问题,所以它也需要有...
阅读(75) 评论(0)

状态机在分布式系统中的应用

前言在大型的分布式系统中,经常会涉及到状态的改变,这里的状态变化可以分很多种,最极端的情况是,任何状态之间都可以互相切换。这种状态之间的切换,转变,更加官方一点的称为叫状态机。这个词可能很多人会感到比较陌生,英文就是State Machine。所以如果大家在学习开源项目中,看到这个单词,指的就是状态机的意思。那么状态机有什么用途呢,为什么我们要定义这样一个概念呢?本文笔者就来简单聊聊状态机的管理。状...
阅读(163) 评论(0)

HDFS对象存储:Ozone的块异步删除服务

前言在HDFS的世界中,所有涉及元数据相关的操作都是在NameNode内完成的,真实进行文件读写和删除操作是在DataNode节点上完成的,完成好之后,再通过心跳的方式将结果汇报给NameNode。这种处理方式要比完全同步的方式好很多,尤其高吞吐数据量规模的情况下时,走同步的方式会很快遇到瓶颈的。当然了,HDFS NameNode这套机制相关文章已经写了很多了,本文笔者来介绍一个比较新的服务设计:H...
阅读(173) 评论(0)

简单聊聊死锁那些事

前言在并发计算理论知识内,死锁是一个经常被拿来谈论的话题。今天,笔者再来也来简单聊聊死锁,死锁在多进/线程操作中是怎么触发的,如果发生了,我们有什么办法解决呢?下面笔者计划从死锁的定义(发生),死锁的预防,最后到死锁的避免3个模块来重新聊聊死锁。死锁的定义笔者在这里举一个生活中的一个常见例子:比如有4辆车,分别从四个方向(东、西、南、北)开来,最后一起开到了一个十字路口上,而且这时每辆车都打算往它们...
阅读(198) 评论(0)

HDFS对象存储的版本管理设计

前言前篇文章,笔者已经大致介绍了目前HDFS对象存储服务Ozone内部的基本架构。本篇文章,笔者继续带领大家学习Ozone。今天笔者所主要阐述的主题是:Ozone的对象版本管理。版本管理是一个很实用的需求,用户往往对于一份数据会有历史版本保存的需求,不仅仅说只是为了防止未来的时候会回退到这个版本的数据。本文我们就来看看Ozone是如何支持这个功能的。目前此功能尚未开发,还处于初始设计阶段,但是并不妨...
阅读(227) 评论(0)

HDFS对象存储服务:Ozone的元数据管理

前言HDFS作为一套成熟的分布式存储系统,它能够存储TB甚至,PB规模级别的数据。依托于如此强大的存储能力,目前越来越多的公司、企业已经开始将越来越多的数据往HDFS上迁移。但是当数据量达到一定规模,HDFS不见得能承受的了。可能有人有疑问了,刚刚不是说HDFS能支撑PB规模级别的数据吗,这不是自相矛盾的说法了?其实笔者在这里想说的是元数据管理会受到瓶颈,HDFS面对如此巨大的元数据信息,凭借单单...
阅读(399) 评论(0)

聊聊副本放置方式对副本持久可用性的影响

前言在过去的很多时间内,人们在分布式数据存储领域研究关注的一点往往是数据的一致性。因为当数据以多副本的形式分散地存储在集群中,我们当然是要确保每份副本上的数据确保一致,然后我们才能读到最新的数据。所以在另一方面,也就是数据的放置位置选择方面就会缺少相对应的关注度。其实在这块领域也是有许多东西可以值得研究的,比如说副本位置的存放策略在一定程度上会影响其未来的可用性,换个更通俗易懂的说法,就是我的副本位...
阅读(918) 评论(0)

分布式数据库学习--分布式并发控制

前言并发控制理论在分布式计算领域是一块较为重要的内容。了解和掌握好这块理论知识,将有助于我们在工作实践中解决一些复杂的难题。最近笔者学习了分布式数据库系统原理书中的分布式并发控制的相关内容,本文借此机会总结总结。并发控制的目标在往常,我们一提到并发这个词,就会马上联想到多线程这个词。这是因为我们在平时的开发工作中经常有遇到多线程的场景。但是回过头来看这个词,其实并发的场景绝不仅限于多线程操作,另外一...
阅读(471) 评论(0)

HDFS新运维工具命令之listOpenFiles命令

前言在运维集群的时候,我们有的时候需要去知道哪些文件存在未被及时关闭的情况。否则会造成一定程度上的资源泄露,比如内存无缘无故就被耗掉了。可能有人会想,好端端的文件,为什么会存在未被关闭的情况呢?答案是有可能的,当发生各种异常写文件的情况时,就有可能发生。这在HDFS内部同样也会发生。对此,社区最近在实现添加一项新的管理员命令-listOpenFiles命令来帮助集群管理者获取这些“打开中的文件”,...
阅读(406) 评论(0)

聊聊HDFS中的副本放置策略和磁盘选择策略间的选择“矛盾”

前言我们知道,在HDFS里,有2个与文件块写入紧密相连的策略选择类:副本放置策略(BlockPlacementPolicy)和磁盘选择策略(VolumeChoosingPolicy)。这两者有什么作用上的区别呢?前者决定了文件块的目标写入节点,后者决定了目标节点上哪个磁盘目录被写入。之前笔者已经写过相关策略的介绍文章了,感兴趣的同学可以点击此链接:HDFS副本放置策略和DataNode引用计数磁盘...
阅读(795) 评论(0)

HDFS的新方向:Ozone对象存储

前言HDFS在近几年中得到了迅速的发展,作为性价比比较高的存储系统,用户、企业只需利用若干台低配廉价的节点机型,就可以构建能够承受TB甚至PB级别的大数据集群,然后在上面做各种类型任务的作业,而且在底层方面,我们完全可以依赖HDFS自身实现的容错机制来应当各种异常情况。但是在当今数据使用场景日益多元化的背景下,HDFS并不是能满足所有的应用需求。如何能够以一种更加高效,方便的方式去存储用户想要保存的...
阅读(2034) 评论(0)

HDFS副本放置节点选择的优化

前言我们都知道,HDFS在准备写文件块的时候,必须要做的一个步骤是要从集群内数以千计的节点中选择一个有效的节点作为待写入块的目标节点。那么这里何为”有效的节点”呢?指的是此节点内包含有快文件需要的Storage Type(存储类型)。比如说某block要求的类型是SSD,而当前选出的节点所有数据目录都是DISK的话,那这个节点就不是满足要求的节点,此轮选举就会被废弃,将选过的节点加入exclude列...
阅读(5657) 评论(2)

HDFS跨外部存储系统的多层级存储

前言 目前大数据和云计算是当下讨论非常火热的2个词,笔者也非常相信在未来的时间内,以Hadoop系统生态圈为代表的大数据工具,将会被更多的企业所使用。在一些更大规模的公司,已经将大数据与云联系在了一起了,举个例子,我们将数据存储在HDFS内,然后在定期同步到云上,相当于云端存储的数据是一个back store。这样做的一个好处是防止本地集群的数据遭到意外的破坏或丢失,至少在云端我们还有备份。...
阅读(2779) 评论(0)

分布式数据库学习--分布式数据库的设计

前言分布式系计算作为一个比较复杂的课题,需要读者具备良好的计算机基础知识。有了这些理论知识的支持,我们才能更好的阅读,学习当前各个主流的分布式系统以及框架。笔者最近饶有兴趣的开始学习起了分布式数据库的知识。因为笔者主要研究的方向是HDFS,也就是分布式存储这块,所以学习了解这块内容对笔者来说能在未来更好地贡献于HDFS。OK,转回正题,最近笔者学习了分布式数据库的设计问题,换句话说,也就是分布式数...
阅读(794) 评论(0)

聊聊错误注入技巧

前言什么是“错误注入”?错误注入指的是将错误引入到我们的程序中。可能有人会很好奇,这么做有什么目的呢?答案很简单:程序的测试。因为在很多时候,当我们要进行边缘情况测试的时候,往往模拟测试的场景不是非常好造的(尤其是分布式类的程序更是如此),这个时候,我们需要有快捷的方式将错误注入到程序中,以便在我们需要发生错误时,进行错误的产生。本文笔者将结合HDFS现有的错误注入方法来介绍此部分内容。错误注入技术...
阅读(2466) 评论(5)
261条 共18页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1140541次
    • 积分:11281
    • 等级:
    • 排名:第1437名
    • 原创:258篇
    • 转载:0篇
    • 译文:2篇
    • 评论:281条
    博主介绍
      Apache Hadoop Committer,其中主要研究HDFS。毕业于HDU计算机系,研究领域分布式计算,大数据,数据挖掘,机器学习,算法。曾就职于国内女性电商平台蘑菇街,目前就职于唯品会上海研发中心,数据平台与应用部门
    新书发布
      新书<<深度剖析Hadoop HDFS>>发布上市,此书源自于笔者博客,重新经过整理,完善而成,此书的定位并不是一本纯源码分析的书籍,其中有许多笔者在工作和学习中对于HDFS的一些有趣的看法和理解。 链接:
    博客专栏
    最新评论