小智学习-CSDN博客

原创【Spark集群部署系列四】Spark on YARN介绍和环境部署(个人笔记，供参考)

通常如果我们想要一个稳定的生产Spark环境, 那么最优的选择就是构建:HA StandAlone集群.。不过在企业中, 服务器的资源总是紧张的, 许多企业不管做什么业务,都基本上会有Hadoop集群. 也就是会有YARN集群。对于企业来说,在已有YARN集群的前提下在单独准备Spark StandAlone集群,对. 所以, 在企业中,多数场景下,会将集群中。YARN本身是一个资源调度框架, 负责对运行在内部的计算框架进行资源调度管理。

2024-08-14 16:26:58 1039

原创【Spark集群部署系列三】Spark StandAlone HA模式介绍和搭建以及使用

Spark Standalone集群是Master-Slaves架构的集群模式，和大部分的Master-Slaves结构集群一样，存在着Master单点故障（SPOF）的问题。如何解决这个单点故障的问题，Spark提供了两种方案：1.基于文件系统的单点恢复(Single-Node Recovery with Local File System)--只能用于开发或测试环境。

2024-08-14 03:00:00 839

原创【Spark集群部署系列二】Spark StandAlone模式介绍和搭建以及使用

【Spark集群部署系列一】Spark local模式介绍和搭建以及使用（内含Linux安装Anaconda)http://t.csdnimg.cn/0xmky 在部署spark集群前，请部署好Hadoop集群，jdk8【当然Hadoop集群需要运行在jdk上】，需要注意hadoop，spark的版本，考虑兼容问题。比如hadoop3.0以上的才兼容spark3.0以上的。下面是Hadoop集群部署的链接，个人笔记，已经成功部署两次了，实时更新，分【一】【二】两部分，需要的自己看。不懂欢迎问，看到了解答。

2024-08-12 23:51:20 1255 3

原创【Spark集群部署系列一】Spark local模式介绍和搭建以及使用（内含Linux安装Anaconda)

在部署spark集群前，请部署好Hadoop集群，jdk8【当然Hadoop集群需要运行在jdk上】，需要注意hadoop，spark的版本，考虑兼容问题。下面是Hadoop集群部署的链接，个人笔记，已经成功部署两次了，实时更新，分【一】【二】两部分，需要的自己看。可以通过游览器输入node1:4040查看监控页面（多个进程不会起冲突，具体监控页面的端口看上图spark版本下面第二行）找到spark上传的位置,cd 进到该目录，不进去也行，自己在前面加路径哈！完成后结果（退出终端，重新进来）

2024-08-12 15:57:42 918

原创 hadoop集群部署【二】YARN & MapReduce 的部署

常用的进程启动命令如下：一键启动YARN集群：会基于yarn-site.xml中配置的yarn.resourcemanager.hostname来决定在哪台机器上启动resourcemanager会基于workers文件配置的主机启动NodeManager一键停止YARN集群：在当前机器，单独启动或停止进程start和stop决定启动和停止可控制resourcemanager、nodemanager、proxyserver三种进程历史服务器启动和停止独立进程启停可用。

2024-07-01 17:24:54 1387

原创《Hadoop集群部署【一】HDFS详细介绍以及HDFS集群环境部署》（YARN以及MapReduce的部署点击文章结尾链接跳转Hadoop集群部署【二】)（笔记，十分详细）

HDFS是Hadoop三大组件(HDFS、MapReduce、YARN)之一全称是：Hadoop Distributed File System（Hadoop分布式文件系统）；是Hadoop技术栈内提供的分布式数据存储解决方案可以在多台服务器上构建存储集群，存储海量的数据。HDFS系统的主角色，是一个独立的进程负责管理HDFS整个文件系统负责管理DataNode。workers：配置从节点（DataNode）有哪些。

2024-06-29 17:09:02 1437 1

原创 CentOS大数据集群启停命令【MySql,HDFS,YARN,Hive,zookeeper,Kafka,Spark】后续补充

本文暂时收录大数据相关的mysql,的启停命令，后续会持续添加。(默认配置都已经完成)

2024-05-16 10:43:44 435 1

原创 Notepad++解决无法识别中文问题

我们在开始使用这款开发软件的时候，会出现无法识别中文的情况，如果出现了这种情况跟着图中的步骤来，就可以了。如下图点击是

2022-07-05 17:58:11 4323

原创 Notepad++的字体修改

字体的处理：找到设置，语言格式设置。可以选择主题，将主题改为black board，界面就会变成黑色，如图，根据自己喜好来定。字体名称的设置和字体大小的设置位置如图勾选全局字体，使用全局字体大小，点击保存并关闭，就可以使用了。...............

2022-07-05 17:46:58 5060

原创如何在PyCharm使用conda虚拟环境，如何使用远程Linux系统上的conda虚拟环境。

同步文件夹：运行python文件都会上传到Linux系统，然后由Linux上的python解释器执行。PyCharm会将项目文件都上传到同步文件夹里面。点击创建，然后将解释器选择为配置的远程解释器。在PyCharm提交的代码实际上都会送到Linux系统运行。Linux安装部署Anaconda,并创建虚拟环境，参考，找目录往下翻，里面有教程。首先需要Linux上存在Anaconda，并且已经创建好了虚拟环境。打开PyCharm(根据版本调整操作，版本不同，操作有些不同)首先请创建好虚拟环境。

2024-08-15 17:24:46 509

原创 YARN & MapReduce 介绍

分布式计算概述MapReduce概述。

2024-07-01 16:13:14 1042

原创 MapReduce概述

MapReduce是“分散->汇总”模式的分布式计算框架，可供开发人员开发相关程序进行分布式数据计算。分布式计算概述-什么是分布式计算MapReduce提供了2个编程接口：MapReduce其中 Map功能接口提供了“分散”的功能，由服务器分布式对数据进行处理Reduce功能接口提供了“汇总（聚合）”的功能，将分布式的处理结果汇总统计用户如需使用MapReduce框架完成自定义需求的程序开发只需要使用Java、Python等编程语言，实现Map Reduce功能接口即可。

2024-07-01 15:13:10 502

原创分布式计算概述

我们一直在提及：分布式计算，分布式暂且不论， “计算”到底是指什么呢？大数据体系内的计算，举例：销售额统计、区域销售占比、季度销售占比利润率走势、客单价走势、成本走势品类分析、消费者分析、店铺分析等等一系列，基于数据得出的结论。这些就是我们所说的计算。也就是说它是广义上的。分布式计算：顾名思义，即以分布式的形式完成数据的统计，得到需要的结果。

2024-07-01 15:05:11 180

原创数据写入流程，数据读取流程

1、对于客户端读取HDFS数据的流程中，一定要知道不论读、还是写，NameNode都不经手数据，均是客户端和DataNode直接通讯不然对NameNode压力太大2、写入和读取的流程，简单来说就是： NameNode做授权判断（是否能写、是否能读）客户端直连DataNode进行写入（由DataNode自己完成副本复制）、客户端直连DataNode进行block读取写入，客户端会被分配找离自己最近的DataNode写数据读取，客户端拿到的block列表，会是网络距离最近的一份。

2024-07-01 09:19:48 328

原创 NameNode元数据【[NameNode是如何管理Block块的]】

在hdfs中，文件是被划分了一堆堆的block块，那如果文件很大、以及文件很多，Hadoop是如何记录和整理文件和block块的关系呢？edits文件，是一个流水账文件，记录了hdfs中的每一次操作，以及本次操作影响的文件其对应的block。如当前已存在fsimage文件，将全部edits和已存在的fsimage进行合并，形成新的fsimage。NameNode基于edits和FSImage的配合，完成整个文件系统文件的管理。将全部的edits文件，合并为最终结果，即可得到一个FSImage文件。

2024-07-01 03:30:00 417

原创修改HDFS上传和已有文件副本数，fsck命令检查文件的副本数，副本数量的配置，Block块大小的配置

修改HDFS上传和已有文件副本数，fsck命令检查文件的副本数，副本数量的配置，Block块大小的配置

2024-06-30 22:16:28 638

原创 HDFS文件系统操作命令，以及HDFS WEB浏览

关于HDFS文件系统的操作命令，Hadoop提供了2套命令体系hadoop命令（老版本用法），用法：hadoop fs [generic options]hdfs命令（新版本用法），用法：hdfs dfs [generic options]两者在文件系统操作上，用法完全一致用哪个都可以，某些特殊操作需要选择hadoop命令或hdfs命令，自行选择。1、创建文件夹path 为待创建的目录 -p 选项的行为与Linux mkdir -p一致，它会沿着路径创建父目录。

2024-06-30 18:06:15 1275

原创在安装HDFS过程中遇见Permission denied

想必有同学在实战Shell的时候，遇到了： Permission denied: user=root, access=WRITE, inode="/":hadoop:supergroup:drwxr-xr-x 这种类似的问题。问题的原因就是没有权限，那么为什么呢？

2024-06-30 17:30:39 427

原创使用NFS网关功能将HDFS挂载到本地系统

HDFS提供了基于NFS（Network File System）的插件，可以对外提供NFS网关，供其它系统挂载使用。NFS 网关支持 NFSv3，并允许将 HDFS 作为客户机本地文件系统的一部分挂载，现在支持：上传、下载、删除、追加内容如下图，将HDFS挂载为Windows文件管理器的网络位置。

2024-06-30 17:13:03 1071

原创 Big Data Tools插件

在Jetbrains的产品中，均可以安装插件，其中：Big Data Tools插件可以帮助我们方便的操作HDFS，比如 IntelliJ IDEA（Java IDE） PyCharm（Python IDE） DataGrip（SQL IDE）均可以支持Bigdata Tool插件。

2024-06-30 16:22:36 603 2

原创 Pycharm SSH远程连接时出现报错，测试 SFTP 连接，连接到 ‘connect.westb.seetacloud.com‘ 失败

文件夹的路径是这样的：C:\Users\个人用户名\.ssh。

2024-06-03 00:01:51 1096 3

原创 CentOS上Kafka集群安装部署

Kafka是一款分布式的、去中心化的、高吞吐低延迟、订阅模式的消息队列系统。同RabbitMQ一样，Kafka也是消息队列。不过RabbitMQ多用于后端系统，因其更加专注于消息的延迟和容错。Kafka多用于大数据体系，因其更加专注于数据的吞吐能力。Kafka多数都是运行在分布式（集群化）模式下，本文以3台服务器【node1,node2,node3】示例，来完成Kafka集群的安装部署。

2024-05-15 16:02:03 899

原创 CentOS上Zookeeper集群安装部署

Zookeeper是一款分布式的集群化软件，可以在多台服务器上部署，并协同组成分布式集群一起工作。ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。除了为Hadoop和HBase提供协调服务外，Zookeeper也被其它许多软件采用作为其分布式状态一致性的依赖，比如Kafka，又或者一些软件项目中，也经常能见到Zookeeper作为一致性协调服务存在。

2024-05-15 12:30:59 1742

原创【关闭防火墙和SELinux】集群化前置准备

firewall-cmd --add-port=端口/tcp --permanent # 将端口二字改成对应的。集群化软件之间需要通过端口互相通讯，为了避免出现网络不通的问题，我们可以简单的在集群内部关闭防火墙。Linux有一个安全模块：SELinux，用以限制用户和程序的相关权限，来确保系统的安全稳定。在当前，我们只需要关闭SELinux功能，避免导致后面的软件运行出现问题即可，SELinux的配置同防火墙一样，非常复杂，这中不多涉及，可以参考其他博客。==在每一台机器都执行==

2024-04-18 14:55:28 258

原创 CentOS安装配置JDK环境【集群化前置准备需要】

其他方法都行。登陆Linux系统，切换到root用户创建文件夹，用来部署JDK（其他软件也可以放在这里），我这里将JDK放到：/export/server 内，其他目录也行解压缩JDK安装文件（注意填自己的版本和目录，可以tab键自动补齐）配置JDK的软链接（解压后的文件名太长，建立软连接）

2024-04-06 22:20:40 316

原创 CentOS,SSH免密配置【集群化准备需要】

在每一台机器都执行：（配置了主机映射的可以这样，把node1这些改成你自己的，有几台就添加几台，根据个人情况来定，我这里是三台，命令一条一条地执行）安装的集群化软件，多数需要远程登录以及远程执行命令，这里可以简单起见，配置三台Linux服务器之间的免密码互相SSH登陆。在node1执行：ssh root@node2，将以root用户登录node2服务器，输入密码即可成功登陆。简单说原理就像是你把你的锁给了别人，他接受了，然后你就可以用你的钥匙开他的门了。SSH服务是一种用于远程登录的安全认证协议。

2024-04-05 21:22:54 583

空空如也

空空如也