bigdata
hadoop、hive、spark等大数据相关
Tatum_99999
java开发
展开
-
flink on yarn集群搭建及验证要点记录
standalone模式的弊端前面搭建了flink简单集群,并在此基础上又搭建了HA集群,记录地址如下:flink初识及集群搭建和简单验证flink-HA集群搭建和问题记录虽然上述两种都能使用,在学习flink-api阶段应该是够用了,但是如果真要上生产使用,就还是有一定的弊端。根据之前的学习可知,flink集群主要分为jobManager和taskManager,而jobManger的任务主要有两个,一个是资源管理,另一个是任务调度。这样一来,jobManager的任务其实就显得有点多,而又由原创 2020-10-16 11:41:59 · 2199 阅读 · 0 评论 -
flink-HA集群搭建和问题记录
上一篇中,搭建了一个简单的flink集群,在这个集群中,我使用了一个jobManager节点,三个taskManager节点,之后根据官网和其他资料写了一个简单的java验证程序验证集群的可用:flink初识及集群搭建和简单验证虽然这个集群搭建是成功的,但是这种方式的集群却存在问题。flink集群中jobManager和taskManager这种,是典型的master/slave主从模式的设计,jobManager具有资源管理和任务调度的功能,管理taskManager的资源和调度,也就是启动以及外部原创 2020-10-14 20:00:44 · 1821 阅读 · 5 评论 -
flink初识及集群搭建和简单验证
批计算和批计算在软件系统中,尤其是企业级软件,基本离不开数据统计和分析等数据计算。最初,多数常见的统计分析都是基于数据库的数据进行处理,例如某一段时间的活跃用户数统计,这种计算方式称作离线计算,也称作批量计算(个人理解)。而现实世界中的数据产生方式有很多都是持续不断的,也就是说实际很多场景的数据是就是数据流,这些数据随着时间的流逝,价值会不断的降低,因此就需要尽可能实时的进行处理。而批计算是一批数据一起处理,尤其是最初数据先入数据库,再拿出来处理,这种方式在数据量日渐爆发的场景下,对于实时分析的业务就原创 2020-10-12 23:41:28 · 1264 阅读 · 8 评论 -
hbase-ha模式搭建要点和问题记录
之前搭建了单机的hbase,使用伪分布式的hdfs作为数据存储,具体搭建要点和问题有所记录:https://blog.csdn.net/tuzongxun/article/details/107915720后来,伪分布式的hdfs升级为ha模式,hbase自然也是要同步升级成ha的,本以为应该会很顺利,但实际上花的时间还是比预想中的多,因此还是做一个简单的记录,尤其是其中卡住的问题。机器规划本次hbase-ha模式搭建规划使用三台机,主机名分别是node001、node002、node003,其中n原创 2020-09-23 18:38:04 · 869 阅读 · 2 评论 -
HDFS-HA模式搭建(基于完全分布式模式升级)
说明本次HDFS-HA模式搭建基于之前的完全分布式,完全分布式搭建可参考之前的内容:hadoop安装环境准备和关联知识解析hadoop分布式安装及配置初步解析(坑坑不息)概括性来说,大概分为如下几个部分:JDK安装和JAVA_HOME配置HOSTS映射SSH免密登陆设置HADOOP配置文件修改配置HADOOP_HOME初始化(格式化)启动验证hadoop项目常被提到的自身模块有yarn、hdfs、mapreduce,hdfs和yarn都可以搭建为高可用(HA),本篇先只原创 2020-09-01 18:06:17 · 1122 阅读 · 1 评论 -
redis、hadoop和hbase等安装相关拓展知识补充
从某种意义上来说,一项技术要学会不难,要学好就很难。会,代表的是能用起来就可以了,照葫芦画瓢而已;好,就涉及到各种细节,一些重要的、频率高的操作,可能还需要知道部分原理。就拿软件安装来说,linux中大部分软件的主要安装流程是大同小异的,仅是这种大同,也有许多的细节,以下便是我在redis、hadoop、hbase等安装过程中遇到的其中一部分,仅是一部分。防火墙首先要说的是防火墙,很多人都知道如果防火墙开着并且没有设置白名单的话,大部分端口都是不能直接从外部访问的,所以要么配置白名单,要么就是关闭防原创 2020-08-11 11:26:43 · 973 阅读 · 0 评论 -
hadoop和hbase的关系及hbase安装与验证
从hadoop官网首页就可以看到,hadoop项目本身自带的模块现在有五个,即:hadoop commonhdfsyarnmapReducehadoop Ozone第一项从名称就可以看出来是基础功能模块,hdfs是文件存储系统,yarn是调度和集群管理,mapReduce是数据计算处理,这几个都是学习使用hadoop一开始就必然会接触的。最后一个hadoop Ozone是分布式对象存储系统,这个是对hdfs的一种补充,是一个相对较新的内容,在人们口中出现的频率相对较低,可能很多人一开始都不原创 2020-08-10 16:16:08 · 3240 阅读 · 2 评论 -
hdfs基础操作(命令行和java代码)
hadoop分布式模式初步搭建完成,无论是从命令行还是web界面都看起来是可用的,然后便可以进入下一步,可以说是进一步的验证,也可以说是hdfs相关的学习。hdfs是分布式文件存储系统,可以进行文件的增删改查操作,原生支持的就有基本的命令行,然后就是各种语言的客户端。这一部分,主要是记录和练习基本的操作,也当是进一步验证之前环境安装的是否可用。环境说明以下内容均基于hadoop3.1.3版本。命令行操作创建目录文件系统落到实际,自然就是目录和文件,所以首先是对文件目录的创建:hdfs dfs原创 2020-08-10 12:56:48 · 2101 阅读 · 0 评论 -
hadoop分布式安装及配置初步解析(坑坑不息)
linux中hadoop的安装教程,网上也有不少了,例如我自己搭建过程中参考的这几篇:https://blog.csdn.net/weixin_44198965/article/details/89603788https://blog.csdn.net/qq_25615395/article/details/89083580https://juejin.im/post/6856984821059895303/然而教程是不少,但或许是环境不一样,也或者思路不一样,所以参考实现的过程中总会发现这样那样的原创 2020-08-06 16:26:41 · 1115 阅读 · 0 评论 -
hadoop安装环境准备和关联知识解析
本想一口气把redis多学一点,奈何还有常见的如穿透、雪崩、击穿、分布式锁、redis并发原理、linux多路复用、redis集群等都还没梳理清楚,而项目就需要先学习一下hadoop等大数据相关技术,于是不得不暂停redis,转而进入hadoop系列的摸石头过河。据我了解,一般正式环境的hadoop使用都是需要zookeeper的,但是使用hadoop是否一定要zookeeper这个事,对于刚开始学习hadoop的我来说,还是一个未知数。尤其是网上有的教程写了zookeeper,有的又没写,也就更加的.原创 2020-08-05 11:43:14 · 1239 阅读 · 2 评论