![](https://img-blog.csdnimg.cn/20190918140158853.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
《大数据开发》系列
文章平均质量分 97
微信关注:Java编程之道
LeoByte.
唯有编程与自由不可辜负
展开
-
深入解析 ZooKeeper 分布式锁原理
深入解析 ZooKeeper 分布式锁原理接着上文,我们继续说一下Zookeeper的分布式锁原理,最后简单再说一下脑裂的概念及Zookeeper是如何处理的。分布式锁为了防止分布式系统中的多个进程之间相互干扰,我们需要一种分布式协调技术来对这些进程进行调度。而这个分布式协调技术的核心就是来实现这个分布式锁。一、实现原理在Zookeeper中实现分布式锁有两种方案,一是使用临时节点,二是使用临时有序节点。这两种方式有什么区别?我们又该用哪种呢?临时节点临时节点方案的原理如下:让多个进程(原创 2020-10-25 18:23:54 · 1277 阅读 · 0 评论 -
死磕Zookeeper之Leader选举源码分析
先赞后看,养成习惯 ????欢迎微信关注:Java编程之道每天进步一点点,沉淀技术分享知识。Zookeeper的Leader选举前面我们聊了一下ZAB协议以及Zookeeper的基础概念,心想着都到这个份上了,那还是把剩下的“Leader选举”、“分布式锁”、“惊群和脑裂”都跟大家简单聊聊,这些知识应该足够准备校招的你造火箭了。今天首先说一下Zookeeper的Leader选举流程以及其中涉及的FastLeaderElection选举算法。说在前面ZAB协议是保证Zookeeper集群数据一原创 2020-10-14 22:35:01 · 775 阅读 · 0 评论 -
闲谈Zookeeper一致性协议--ZAB
ZAB协议国庆八天乐就这样结束了!2020年没有假期了!同学你难受吗?今天先简单聊聊ZAB协议,个人认为搞懂ZAB协议和Leader选举算法的关系和流程对于深入认识Zookeeper是一个比不可少的环节。请允许我盼过年Zookeeper百度百科:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等原创 2020-10-11 16:30:20 · 729 阅读 · 0 评论 -
机器学习算法---K-means算法
下周二算法课需要讲一个算法PPT,趁着自己在学习大数据,最佳的算法选择无疑是机器学习了。除了K-means我还接触过KNN以及反向传播神经网络。等到后面在系统学习复习(开天辟地)的时候再做一个详细的梳理。K-meansK-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-m...原创 2018-11-25 20:41:21 · 4350 阅读 · 0 评论 -
重温大数据---Hive介绍与填坑配置
沿着前面的内容,接下来的文章就是关于Hive的知识,从基础的搭建到高级应用。大二初学Hive的时候,就觉得和Mysql差不多,但是对于Hive为什么叫做数据仓库,以及Hive的UDF编程我并没有太多思考。直到目前算是明白了数据仓库的含义。对Hive的使用有了新的认识。Hive是什么先看一看官方的解释hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表...原创 2018-11-16 21:27:21 · 2152 阅读 · 0 评论 -
重温大数据---Hive操作及UDF编程
这一块的内容自我感觉算不上进阶。除了一些看似需要死记硬背但实际上我并不会去背的东西,真没啥好写的。只能全当做笔记了。另外值得提一嘴的就是那个UDF,其实只要有那么一点点Java基础看起来就很简单。不要因为编程两个字就选择性忽略了。单学习来讲UDF编程还是很基础的,在实际项目中视不同的需求可能会麻烦一点。但再难毕竟是Java老本行。Hive关于库的操作一堆CDAUS:create ...原创 2018-11-17 19:00:47 · 2264 阅读 · 0 评论 -
重温大数据---Hbase部署以及架构分析
这篇文章主要介绍一下,Hbase是什么,能干什么,干的怎么样。以及Hbase的安装配置和调试等。总的来说Hbase在大数据的生态系统中占有很重要的位置,对于Hbase的学习还需要更加深入才行。对于大数据的内容我都建议多看看官方文档,以前我总觉得自己看不懂哪些高大上的,其实不然。原创 2018-11-24 15:51:58 · 3312 阅读 · 1 评论 -
重温大数据---Hbase架构进阶
这一讲主要是对Hbase JavaApi使用的介绍,编程还是挺简单的,重点在于理解编程实现的过程。其次深入讲解了Hbase的架构。以及Hbase如何实现数据的迁移。Hbase Java APIHbase提供了java开发的接口,可以使用java语言对Hbase数据库进行操作。jar包依赖 server client配置文件导入 hdfs-seite.xml core-site....原创 2018-11-24 16:23:54 · 3310 阅读 · 0 评论 -
重温大数据---Hbase细节剖析
这一节我能说多少说多少吧,信息量太大。Hbase的官方文档我感觉写的挺乱糟的,反正用起来没有Hadoop的舒服。最终还是一个原则不会再查!Hbase架构Hbase Region定位Hbase表创建help ‘create’ 引号‘’是必须的namespace 命名空间类似与数据库的概念。ns1:t1指定ns1命名空间下的t1表如何创建一个命名空间?cr...原创 2018-11-25 21:52:31 · 2274 阅读 · 0 评论 -
重温大数据---正儿八经Spark初窥
这几天,因为学院的考勤系统需要维护搭建,耽误了我不少时间。对于Spark的学习本来就很薄,这次基本上是真正的初窥了,写的很草率吧。只是一些学习笔记。烦啊!原创 2018-11-30 21:22:52 · 1954 阅读 · 0 评论 -
重温大数据---正儿八经Spark再探
连着把这一块改总结的笔记都写了,时间太紧张了,对不住各位了!原创 2018-11-30 21:26:42 · 1912 阅读 · 0 评论 -
重温大数据---正儿八经Spark高级
慌的一批。原创 2018-11-30 21:30:31 · 2062 阅读 · 0 评论 -
重温大数据---协作框架Flume详解
对于Flume我不敢说简单,因为他处理的业务场景比较多,其次集成的其他框架也很多。这里我说点flume的基本使用,也基本上是官方给的例子原创 2018-11-20 21:54:24 · 2001 阅读 · 0 评论 -
重温大数据---协作框架Sqoop详解
接下来讲Sqoop,Flume,Oozie,Hue。这几个小东西在我初学大数据的时候就了给我坚持的理由,为什么呢?因为简单啊!原创 2018-11-20 21:20:54 · 2081 阅读 · 0 评论 -
Hbase API使用(一)
1.使用Java API创建一个表可以使用HBaseAdmin类的createTable()方法创建表在HBase中。这个类属于org.apache.hadoop.hbase.client 包。下面给出的步骤是来使用Java API创建表在HBase中。第1步:实例化HBaseAdmin这个类需要配置对象作为参数,因此初始实例配置类传递此实例给HBaseAdmin。Conf原创 2017-11-20 21:19:33 · 2105 阅读 · 0 评论 -
Hbase API使用(二)
1.使用Java API插入数据可以使用Put 类的add()方法将数据插入到HBase。可以使用HTable类的put()方法保存数据。这些类属于org.apache.hadoop.hbase.client包。下面给出的步骤是在一个HBase表创建数据。第1步:实例化配置类Configuration类增加了 HBase 配置文件到它的对象。使用HbaseConfiguration类的原创 2017-11-20 21:24:46 · 2302 阅读 · 0 评论 -
重温大数据---Hadoop全局思考
距离第一次接触大数据已经快一年了,中间参加了为期4个月左右的中国软件杯,拿了个国家三等奖,还算是为我时间的牺牲得到了一点回报。暑假到前半个月,一直在学JavaWeb,接触了后台之后对很多知识有了更深入的理解,同时也对大数据的应用有了更加清晰的认识。目前准备花一个月的时间将大数据相关的知识总结一下捋一下,然后再做一个推荐系统或者合适的大数据开发项目。最后就开始苦逼的复习了。如果你想入门大数据,...原创 2018-11-11 20:28:01 · 2407 阅读 · 0 评论 -
重温大数据---Hadoop核心介绍
昨天初步介绍了Hadoop,以及Hadoop的单机模式、伪分布式应用。今天主要记录一下对HDFS的Java Api操作以及Hadoop的重头戏,Mapreduce的编程以及理解。时间紧张。废话就不多说了,趁着脑子还清醒,赶紧做个笔记。原创 2018-11-12 20:34:44 · 2034 阅读 · 0 评论 -
重温大数据---HA架构部署
说完这一讲,Hadoop四个核心模块的内容基本上就结束了。前面讲过了基础的部署,包括单机、伪分布式,虽然完全分布式其实也挺简单的,但是既然是知识的梳理,在本节我也做个讲解吧。本节最重要的内容是对HDFS的HA架构的搭建。一年前看得我头大,其实嘛没有那么难,只是被高端大气的名字给吓着了。原创 2018-11-14 21:43:50 · 7675 阅读 · 3 评论 -
重温大数据---Hive数据压缩与优化
首先我要感谢CSDN,我的重温大数据—HA架构部署连着好几天在大数据板块的可见位置了,访问量瞬间爆炸。这也是对我的一种肯定吧,至少我以前的文章还没有能破千的。原创 2018-11-20 20:30:03 · 2288 阅读 · 0 评论