自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(111)
  • 收藏
  • 关注

原创 【Spark集群部署系列四】Spark on YARN介绍和环境部署(个人笔记,供参考)

通常如果我们想要一个稳定的生产Spark环境, 那么最优的选择就是构建:HA StandAlone集群.。不过在企业中, 服务器的资源总是紧张的, 许多企业不管做什么业务,都基本上会有Hadoop集群. 也就是会有YARN集群。对于企业来说,在已有YARN集群的前提下在单独准备Spark StandAlone集群,对. 所以, 在企业中,多 数场景下,会将集群中。YARN本身是一个资源调度框架, 负责对运行在内部的计算框架进行资源调度管理。

2024-08-14 16:26:58 1039

原创 【Spark集群部署系列三】Spark StandAlone HA模式介绍和搭建以及使用

Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障(SPOF)的问题。如何解决这个单点故障的问题,Spark提供了两种方案:1.基于文件系统的单点恢复(Single-Node Recovery with Local File System)--只能用于开发或测试环境。

2024-08-14 03:00:00 839

原创 【Spark集群部署系列二】Spark StandAlone模式介绍和搭建以及使用

【Spark集群部署系列一】Spark local模式介绍和搭建以及使用(内含Linux安装Anaconda)http://t.csdnimg.cn/0xmky 在部署spark集群前,请部署好Hadoop集群,jdk8【当然Hadoop集群需要运行在jdk上】,需要注意hadoop,spark的版本,考虑兼容问题。比如hadoop3.0以上的才兼容spark3.0以上的。 下面是Hadoop集群部署的链接,个人笔记,已经成功部署两次了,实时更新,分【一】【二】两部分,需要的自己看。不懂欢迎问,看到了解答。

2024-08-12 23:51:20 1255 3

原创 【Spark集群部署系列一】Spark local模式介绍和搭建以及使用(内含Linux安装Anaconda)

在部署spark集群前,请部署好Hadoop集群,jdk8【当然Hadoop集群需要运行在jdk上】,需要注意hadoop,spark的版本,考虑兼容问题。下面是Hadoop集群部署的链接,个人笔记,已经成功部署两次了,实时更新,分【一】【二】两部分,需要的自己看。可以通过游览器输入node1:4040查看监控页面(多个进程不会起冲突,具体监控页面的端口看上图spark版本下面第二行)找到spark上传的位置,cd 进到该目录,不进去也行,自己在前面加路径哈!完成后结果(退出终端,重新进来)

2024-08-12 15:57:42 918

原创 hadoop集群部署【二】YARN & MapReduce 的部署

常用的进程启动命令如下:一键启动YARN集群:会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager会基于workers文件配置的主机启动NodeManager一键停止YARN集群:在当前机器,单独启动或停止进程start和stop决定启动和停止可控制resourcemanager、nodemanager、proxyserver三种进程历史服务器启动和停止独立进程启停可用。

2024-07-01 17:24:54 1387

原创 《Hadoop集群部署【一】HDFS详细介绍以及HDFS集群环境部署》(YARN以及MapReduce的部署点击文章结尾链接跳转Hadoop集群部署【二】)(笔记,十分详细)

HDFS是Hadoop三大组件(HDFS、MapReduce、YARN)之一 全称是:Hadoop Distributed File System(Hadoop分布式文件系统);是Hadoop技术栈内提供的分布式数据存储解决方案 可以在多台服务器上构建存储集群,存储海量的数据。HDFS系统的主角色,是一个独立的进程 负责管理HDFS整个文件系统 负责管理DataNode。workers: 配置从节点(DataNode)有哪些。

2024-06-29 17:09:02 1437 1

原创 CentOS大数据集群启停命令【MySql,HDFS,YARN,Hive,zookeeper,Kafka,Spark】后续补充

本文暂时收录大数据相关的mysql,的启停命令,后续会持续添加。(默认配置都已经完成)

2024-05-16 10:43:44 435 1

原创 Notepad++解决无法识别中文问题

我们在开始使用这款开发软件的时候,会出现无法识别中文的情况,如果出现了这种情况跟着图中的步骤来,就可以了。如下图点击是

2022-07-05 17:58:11 4323

原创 Notepad++的字体修改

字体的处理:找到设置,语言格式设置。可以选择主题,将主题改为black board,界面就会变成黑色,如图,根据自己喜好来定。字体名称的设置和字体大小的设置位置如图勾选全局字体,使用全局字体大小,点击保存并关闭,就可以使用了。...............

2022-07-05 17:46:58 5060

原创 如何在PyCharm使用conda虚拟环境,如何使用远程Linux系统上的conda虚拟环境。

同步文件夹:运行python文件都会上传到Linux系统,然后由Linux上的python解释器执行。PyCharm会将项目文件都上传到同步文件夹里面。点击创建,然后将解释器选择为配置的远程解释器。在PyCharm提交的代码实际上都会送到Linux系统运行。Linux安装部署Anaconda,并创建虚拟环境,参考,找目录往下翻,里面有教程。首先需要Linux上存在Anaconda,并且已经创建好了虚拟环境。打开PyCharm(根据版本调整操作,版本不同,操作有些不同)首先请创建好虚拟环境。

2024-08-15 17:24:46 509

原创 YARN & MapReduce 介绍

分布式计算概述MapReduce概述。

2024-07-01 16:13:14 1042

原创 MapReduce概述

MapReduce是“分散->汇总”模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。分布式计算概述-什么是分布式计算MapReduce提供了2个编程接口:MapReduce其中 Map功能接口提供了“分散”的功能, 由服务器分布式对数据进行处理Reduce功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计用户如需使用MapReduce框架完成自定义需求的程序开发 只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。

2024-07-01 15:13:10 502

原创 分布式计算概述

我们一直在提及:分布式计算, 分布式暂且不论, “计算”到底是指什么呢?大数据体系内的计算, 举例:销售额统计、区域销售占比、季度销售占比 利润率走势、客单价走势、成本走势 品类分析、消费者分析、店铺分析 等等一系列,基于数据得出的结论。这些就是我们所说的计算。也就是说它是广义上的。分布式计算:顾名思义,即以分布式的形式完成数据的统计,得到需要的结果。

2024-07-01 15:05:11 180

原创 数据写入流程,数据读取流程

1、对于客户端读取HDFS数据的流程中,一定要知道 不论读、还是写,NameNode都不经手数据,均是客户端和DataNode直接通讯 不然对NameNode压力太大2、写入和读取的流程,简单来说就是: NameNode做授权判断(是否能写、是否能读) 客户端直连DataNode进行写入(由DataNode自己完成副本复制)、客户端直连DataNode进行block读取 写入,客户端会被分配找离自己最近的DataNode写数据 读取,客户端拿到的block列表,会是网络距离最近的一份。

2024-07-01 09:19:48 328

原创 NameNode元数据【[NameNode是如何管理Block块的]】

在hdfs中,文件是被划分了一堆堆的block块,那如果文件很大、以及文件很多,Hadoop是如何记录和整理文件和block块的关系呢?edits文件,是一个流水账文件,记录了hdfs中的每一次操作,以及本次操作影响的文件其对应的block。如当前已存在fsimage文件,将全部edits和已存在的fsimage进行合并,形成新的fsimage。NameNode基于edits和FSImage的配合,完成整个文件系统文件的管理。将全部的edits文件,合并为最终结果,即可得到一个FSImage文件。

2024-07-01 03:30:00 417

原创 修改HDFS上传和已有文件副本数,fsck命令检查文件的副本数,副本数量的配置,Block块大小的配置

修改HDFS上传和已有文件副本数,fsck命令检查文件的副本数,副本数量的配置,Block块大小的配置

2024-06-30 22:16:28 638

原创 HDFS文件系统操作命令,以及HDFS WEB浏览

关于HDFS文件系统的操作命令,Hadoop提供了2套命令体系hadoop命令(老版本用法),用法:hadoop fs [generic options]hdfs命令(新版本用法),用法:hdfs dfs [generic options]两者在文件系统操作上,用法完全一致 用哪个都可以 ,某些特殊操作需要选择hadoop命令或hdfs命令,自行选择。1、创建文件夹path 为待创建的目录 -p 选项的行为与Linux mkdir -p一致,它会沿着路径创建父目录。

2024-06-30 18:06:15 1275

原创 在安装HDFS过程中遇见Permission denied

想必有同学在实战Shell的时候,遇到了: Permission denied: user=root, access=WRITE, inode="/":hadoop:supergroup:drwxr-xr-x 这种类似的问题。问题的原因就是没有权限,那么为什么呢?

2024-06-30 17:30:39 427

原创 使用NFS网关功能将HDFS挂载到本地系统

HDFS提供了基于NFS(Network File System)的插件,可以对外提供NFS网关,供其它系统挂载使用。NFS 网关支持 NFSv3,并允许将 HDFS 作为客户机本地文件系统的一部分挂载,现在支持: 上传、下载、删除、追加内容 如下图,将HDFS挂载为Windows文件管理器的网络位置。

2024-06-30 17:13:03 1071

原创 Big Data Tools插件

在Jetbrains的产品中,均可以安装插件,其中:Big Data Tools插件可以帮助我们方便的操作HDFS,比如 IntelliJ IDEA(Java IDE) PyCharm(Python IDE) DataGrip(SQL IDE) 均可以支持Bigdata Tool插件。

2024-06-30 16:22:36 603 2

原创 Pycharm SSH远程连接时出现报错,测试 SFTP 连接,连接到 ‘connect.westb.seetacloud.com‘ 失败

文件夹的路径是这样的:C:\Users\个人用户名\.ssh。

2024-06-03 00:01:51 1096 3

原创 CentOS上Kafka集群安装部署

Kafka是一款分布式的、去中心化的、高吞吐低延迟、订阅模式的消息队列系统。同RabbitMQ一样,Kafka也是消息队列。不过RabbitMQ多用于后端系统,因其更加专注于消息的延迟和容错。Kafka多用于大数据体系,因其更加专注于数据的吞吐能力。Kafka多数都是运行在分布式(集群化)模式下,本文以3台服务器【node1,node2,node3】示例,来完成Kafka集群的安装部署。

2024-05-15 16:02:03 899

原创 CentOS上Zookeeper集群安装部署

Zookeeper是一款分布式的集群化软件,可以在多台服务器上部署,并协同组成分布式集群一起工作。ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。除了为Hadoop和HBase提供协调服务外,Zookeeper也被其它许多软件采用作为其分布式状态一致性的依赖,比如Kafka,又或者一些软件项目中,也经常能见到Zookeeper作为一致性协调服务存在。

2024-05-15 12:30:59 1742

原创 【关闭防火墙和SELinux】集群化前置准备

firewall-cmd --add-port=端口/tcp --permanent # 将端口二字改成对应的。集群化软件之间需要通过端口互相通讯,为了避免出现网络不通的问题,我们可以简单的在集群内部关闭防火墙。Linux有一个安全模块:SELinux,用以限制用户和程序的相关权限,来确保系统的安全稳定。在当前,我们只需要关闭SELinux功能,避免导致后面的软件运行出现问题即可,SELinux的配置同防火墙一样,非常复杂,这中不多涉及,可以参考其他博客。==在每一台机器都执行==

2024-04-18 14:55:28 258

原创 CentOS安装配置JDK环境【集群化前置准备需要】

其他方法都行。登陆Linux系统,切换到root用户创建文件夹,用来部署JDK(其他软件也可以放在这里),我这里将JDK放到:/export/server 内,其他目录也行解压缩JDK安装文件(注意填自己的版本和目录,可以tab键自动补齐)配置JDK的软链接(解压后的文件名太长,建立软连接)

2024-04-06 22:20:40 316

原创 CentOS,SSH免密配置【集群化准备需要】

在每一台机器都执行:(配置了主机映射的可以这样,把node1这些改成你自己的,有几台就添加几台,根据个人情况来定,我这里是三台,命令一条一条地执行 )安装的集群化软件,多数需要远程登录以及远程执行命令,这里可以简单起见,配置三台Linux服务器之间的免密码互相SSH登陆。在node1执行:ssh root@node2,将以root用户登录node2服务器,输入密码即可成功登陆。简单说原理就像是你把你的锁给了别人,他接受了,然后你就可以用你的钥匙开他的门了。SSH服务是一种用于远程登录的安全认证协议。

2024-04-05 21:22:54 583

原创 配置主机名映射【IP(ip)映射】&修改window文件权限【集群化前置准备需要】

注意:修改window文件权限,直接跳第一个标题的第二个小标题。Centos集群化的从头到尾全都要配置。

2024-04-05 21:00:51 622

原创 《配置VMware固定IP》【CentOS】集群化前置准备

当前我们虚拟机的Linux操作系统,其IP地址是通过DHCP服务获取的。DHCP:动态获取IP地址,即每次重启设备后都会获取一次,可能导致IP地址频繁变更配置固定IP需要2个大步骤:1.在VMware Workstation(或Fusion)中配置IP地址网关和网段(IP地址的范围)2.在Linux系统中手动修改配置文件,固定IP。

2024-04-02 17:27:15 1149

原创 《配置多台Linux虚拟机》集群化必要前置准备【CentOS】

大数据相关的软件部署,所安装的软件服务,大多数都是以集群化(多台服务器共同工作)模式运行的。所以,在我们需要完成集群化环境的前置准备,包括创建多台虚拟机,配置主机名映射,SSH免密登录等等。我写这个的原因也是因为我其他的文章要用到,防止文章内容的重复出现。好!不多说。

2024-04-02 13:26:00 371

原创 Centos系统上部署ElasticSearch安装部署

全文搜索属于最常见的需求,开源的(以下简称 es)是目前全文搜索引擎的首选。它可以快速地储存、搜索和分析海量数据。维基百科、Stack Overflow、Github 都采用它。Elasticsearch简称es,在企业内同样是一款应用非常广泛的搜索引擎服务。很多服务中的搜索功能,都是基于es来实现的。

2024-03-30 00:30:00 896

原创 mysql-community-client-8.0.x-1.el7.x86_64.rpm 的公钥尚未安装&“MySQL 8.0 Community Server“ 的 GPG 密钥已安装,但是不适用

本来之前安装了一次没出错,后来卸了再按照安装文档安装时就出现了错误,找来找去,花了两个小时,也没找到解决办法,后来偶尔翻了一下却又看到了一篇博主的文章,但是我已经解决问题了,哎!心累。这里我也写了一份关于mysql8的安装教程,直接在出现问题的地方给与了解决方法和原因,有兴趣的可以看看。

2024-03-29 12:42:02 981 2

原创 MySQL8.0版本在CentOS系统安装&&修改MySQL的root密码和允许root远程登录(介绍但对于生产来说不安全,学习可用)

注意:安装操作需要root权限。

2024-03-29 12:09:01 2886

原创 MySQL5.7版本在CentOS系统安装

注意:安装操作需要root权限切换到root用户 su - root。

2024-03-29 00:00:00 1141

原创 在CentOS上安装部署Tomcat

Tomcat 是由 Apache 开发的一个 Servlet 容器,实现了对 Servlet 和 JSP 的支持,并提供了作为Web服务器的一些特有功能,如Tomcat管理和控制平台、安全域管理和Tomcat阀等。简单来说,Tomcat是一个WEB应用程序的托管平台,可以让用户编写的WEB应用程序,被Tomcat所托管,并提供网站服务。即让用户开发的WEB应用程序,变成可以被访问的网页。

2024-03-28 18:33:35 1184

原创 CentOS上安装部署Redis

redis是一个开源的、使用C语言编写的、支持网络交互的、可基于内存也可持久化的Key-Value数据库。redis的特点就是:快,可以基于内存存储数据并提供超低延迟、超快的检索速度一般用于在系统中提供快速缓存的能力。

2024-03-28 16:37:27 240

原创 Centos安装Nginx

firewall-cmd --add-port=80/tcp --permanent # 放行tcp规则下的80端口,永久生效。systemctl start nginx # 启动(补充可以不管,根据需求来)systemctl disable nginx # 关闭开机自启。配置防火墙放行,nginx默认绑定80端口,需要关闭防火墙或放行80端口。启动( nginx自动注册了systemctl系统服务)Nginx需要配置额外的yum仓库,才可以使用yum安装。

2024-03-28 12:33:24 360

原创 Centos关于RabbitMQ安装部署

firewall-cmd --add-port=15672/tcp --permanent # 放行tcp规则下的15672端口,永久生效。firewall-cmd --add-port=25672/tcp --permanent # 放行tcp规则下的25672端口,永久生效。firewall-cmd --add-port=5672/tcp --permanent # 放行tcp规则下的5672端口,永久生效。# 方式2,放行5672 25672端口。

2024-03-28 11:22:58 820

原创 解决无法在CentOS系统外访问tomcat

firewall-cmd --add-port=8080/tcp --permanent # --add-port=8080/tcp表示放行8080端口的tcp访问,--permanent表示永久生效。firewall-cmd --reload # 重新载入防火墙规则使其生效。所以,如果想要Tomcat可以正常使用,需要对Tomcat默认使用的8080端口进行放行。2. 配置防火墙规则,放行端口(这里是默认的8080端口为例)

2024-03-26 22:49:07 189

原创 Linux创建tomcat后通过netstat -anp | grep 8080 没有反应$$Error: Could not create the Java Virtual Machine

场景:下载了tomcat10.1.20的版本安装在linux机器上,然后通过netstat -anp | grep 8080查看端口使用情况却没有任何输出。在浏览器上也无法访问。这种情况可以通过查看日志来查看原因,默认位置在 Tomcat 的 logs 目录下。英文网站无法翻译,所以我将原图与翻译后的图片放一块,方便对照。对于这三种情况其他博主也有讲解,可以自行搜索,我的是第三种情况。错误:无法创建Java虚拟机。对于如何查看版本是否兼容。错误:发生了致命异常。命令查看日志实时输出。

2024-03-26 22:21:29 768

原创 E: The repository ‘http://repo.mysql.com/apt/ubuntu bionic InRelease‘ is not signed.

E: The repository 'http://repo.mysql.com/apt/ubuntu bionic InRelease' is not signed.E:存储库'http://repo.mysql.com/apt/ubuntu bionic InRelease'没有签名。

2024-03-24 11:19:14 987

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除