盈秋君-CSDN博客

原创 09：RDD编程 - 如何查看应用程序信息

RDD编程 - 如何查看应用程序信息

2022-09-25 23:26:09 523 1

原创 08：采用Hadoop YARN管理器运行Spark应用程序

采用Hadoop YARN管理器运行Spark应用程序

2022-09-17 23:31:44 1267

原创 07：在独立集群管理器上运行Spark应用程序

在独立集群管理器上运行Spark应用程序

2022-09-17 14:39:49 914

转载2019级崔相元同学（数据科学与大数据技术专业）的blog：https://blog.csdn.net/qq_46013938/article/details/121512388其中最后一步：schematool -dbType mysql -initSchema如果出现以下错误：则需要将链接MySQL的驱动jar包拷贝到hive的lib文件夹下：cp mysql-connector-java-5.1.40/mysql-connector-java-5.1.40-bin.jar /us

2021-12-06 03:32:23 2466

原创 12. HBase安装配置

首先确定Hadoop已安装配置成功：解压安装包（前提是已经将安装包传到Downloads目录下）：修改目录名：hbase目录权限赋予给hadoop用户：配置环境变量：vim ~/.bashrc在export PATH这行追加以下内容：:/usr/local/hbase/bin保存退出后，执行source命令使配置生效：source ~/.bashrc查看HBase版本：返回如下新信息，说明安装成功：注：HBase 2.2.2首次安装启动出现 Erro..

2021-10-14 11:25:27 2667

原创 11. Hadoop完全分布式配置

由于之前已经做了伪分布式配置，在做完全分布式配置之前，需要首先删除master主机hadoop安装路径下的tmp和logs文件夹中的文件：重新配置core-site.xml和hdfs-site.xml，以及mapred-site.xml和yarn-site.xml。（1）首先编辑core-site.xml（2）然后编辑hdfs-site.xml（3）编辑mapred-site.xml（4）编辑yarn-site.xml修改slaves文件压缩hadoop安装文件夹，然后分发到slav.

2021-09-26 23:55:24 7890

原创 10. Hadoop伪分布式配置

在成功安装Hadoop之后，可以开始伪分布式配置。Hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中，伪分布式需要修改2个配置文件core-site.xml和hdfs-site.xml。以hadoop用户登录master主机。修改配置文件core-site.xml查看要修改的配置文件：修改配置文件core-site.xml：修改hdfs-site.xml格式化NameNode（注意只格式化一次即可，重复格式化会引起问题，稍后再讲）启动Hado

2021-09-14 15:39:50 7205

原创 9. SSH服务配置

在CentOS系统中，执行rpm -qa | grep ssh可以检查机器是否安装了SSH服务，使用ps -e | grep sshd指令查看SSH服务是否正常开启：下面开始配置SSH服务：2. 分别在slave01和slave02上删除.ssh文件夹：3. 以hadoop账户登录master，新建SSH公钥私钥对：4. 使用ssh-copy-id命令，复制本地用户的公钥到远程主机指定用户的认证库中，实现本地用户通过SSH免密登录远程主机指定用户：(出现（yes/no），输入ye.

2021-09-13 16:48:22 3532

原创 5. Xshell和Xftp的安装过程

Xshell和Xftp的安装过程Xftp的安装过程如下：

2021-09-05 22:12:15 1390

原创 1. 安装虚拟机软件VMware

只更改了盘符：重启电脑后，首次启动VMware时需要…启动之后的界面如下，下面可以安装虚拟机了。

2021-09-05 22:00:29 1680

原创 2. 安装CentOS虚拟机

选择CentOS的iso虚拟光驱文件（下载的文件在哪个文件夹就到哪里找iso文件）：点击上图的“浏览”，找到iso文件：定义Linux主机的名称为master，用户名为hadoop：事先在硬盘建好VM文件夹下的master、slave01、Slave02、Slave03文件夹，分别存放四台Linux主机的虚拟机文件：磁盘大小不能太小，否则后边实验可能做不下去：开始安装CentOS，可能需要几分钟到十几分钟时间：正常启动后，可以登录了：这是登录之后的界面：...

2021-09-01 18:20:21 2637

原创 8. 安装Hadoop

启动master、salve01、slave02、slave03（或者只有一个slave）。以hadoop用户登录master，切换到root用户。进入hadoop安装包所在路径cd /home/hadoop/Downloads将hadoop安装包解压到/usr/local文件夹tar -zxvf hadoop-3.1.3.tar.gz -C /usr/local/配置Hadoop环境变量vi etc/profile打开文件后，把安装JDK时的环境变量设置部分改为：环境变量.

2021-06-16 00:20:10 3769 3

原创 7. 安装JDK，为Hadoop完全分布式部署做准备

安装JDK

2021-06-15 23:40:07 3271

原创 6. 通过Xshell登录四台linux虚拟机

通过Xshell登录四台linux虚拟机

2021-06-03 00:14:54 2761

原创 4. 克隆虚拟机

克隆三台Slave虚拟机slave01、slave02、slave03。首先，关闭master，然后在master上单击右键选择“管理”->“克隆”修改三台slave虚拟机的hostname方法如下（以slave01为例）：$ su root$ vi /etc/sysconfig/network......

2021-06-03 00:08:33 4386

原创 3. Linux系统网络配置（待续）

Linux系统网络配置（待续）主机名和IP映射配置开启虚拟机master，以root用户的用户名（root）和密码登录虚拟机。开启终端窗口，进行主机名和IP映射的配置。(1) 配置主机名，具体指令如下：$ vi /etc/sysconfig/network(2) 配置IP映射先查IP地址：选择VMware工具的“编辑”下拉菜单下的“虚拟网络编辑（N）”菜单项，打开虚拟网络编辑器。查到VMware虚拟网络IP地址范围后，执行如下命令进行IP映射文件编辑：$ vi /etc/host

2021-06-02 23:57:46 4341

原创执行start-dfs.sh时出现错误：there is no HDFS_NAMENODE_USER defined.

完全分布式安装Hadoop时，在执行start-dfs.sh时出现一下错误：[root@hdp1 hadoop]# start-dfs.shStarting namenodes on [hdp1]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Starting datanodesERROR: Atte

2021-05-17 16:45:31 2634 1

原创 Filezilla的连接问题: FATAL ERROR: Network error: Connection timed out

Filezilla软件由Windows向CentOS传输文件，连接一直出问题，经过长时间的尝试，包括关闭两个系统的防火墙、启动SSH，启动Windows中的一些服务等等，都没有解决，最后通过以下步骤终于连接成功。比较奇怪的是只有Filezilla连接不行，其他两个系统互ping，linux上网等都可以。之前用过Filezilla，当时并没有出现连接问题，所以这次出问题的原因不是很明确，有可能和之前卸载虚拟机不干净有关。总之花了一星期业余时间查资料、思考、调试，终于解决了。在虚拟机VMware的“编辑”

2021-04-30 00:20:07 3247 6

lijun05的博客

原创 spark的python版本更新

原创 09：RDD编程 - 如何查看应用程序信息

原创 08：采用Hadoop YARN管理器运行Spark应用程序

原创 07：在独立集群管理器上运行Spark应用程序

原创 06: Spark集群环境搭建

原创 05: maven编译打包Scala程序

原创 04：sbt编译打包Spark应用程序代码

原创 03：安装编译打包工具sbt和maven

原创 02：启动spark-shell

原创 01: Spark的安装与配置

转载 13. Hive和MySQL的安装