自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (2)
  • 收藏
  • 关注

原创 spark的python版本更新

解决python版本更新

2023-09-16 01:19:32 158

原创 09:RDD编程 - 如何查看应用程序信息

RDD编程 - 如何查看应用程序信息

2022-09-25 23:26:09 523 1

原创 08:采用Hadoop YARN管理器运行Spark应用程序

采用Hadoop YARN管理器运行Spark应用程序

2022-09-17 23:31:44 1267

原创 07:在独立集群管理器上运行Spark应用程序

在独立集群管理器上运行Spark应用程序

2022-09-17 14:39:49 914

原创 06: Spark集群环境搭建

Spark集群配置

2022-09-17 00:45:42 2292 1

原创 05: maven编译打包Scala程序

maven编译打包Scala程序

2022-09-12 13:20:24 972

原创 04:sbt编译打包Spark应用程序代码

sbt编译打包Spark程序

2022-09-12 01:46:56 651

原创 03:安装编译打包工具sbt和maven

安装spt和maven

2022-09-11 23:54:36 954

原创 02:启动spark-shell

启动spark-shell

2022-09-11 18:54:40 1049

原创 01: Spark的安装与配置

Spark安装配置

2022-09-11 18:36:34 974

转载 13. Hive和MySQL的安装

转载2019级崔相元同学(数据科学与大数据技术专业)的blog:https://blog.csdn.net/qq_46013938/article/details/121512388其中最后一步:schematool -dbType mysql -initSchema如果出现以下错误:则需要将链接MySQL的驱动jar包拷贝到hive的lib文件夹下:cp mysql-connector-java-5.1.40/mysql-connector-java-5.1.40-bin.jar /us

2021-12-06 03:32:23 2466

原创 12. HBase安装配置

首先确定Hadoop已安装配置成功:解压安装包(前提是已经将安装包传到Downloads目录下):修改目录名:hbase目录权限赋予给hadoop用户:配置环境变量:vim ~/.bashrc在export PATH这行追加以下内容::/usr/local/hbase/bin保存退出后,执行source命令使配置生效:source ~/.bashrc查看HBase版本:返回如下新信息,说明安装成功:注:HBase 2.2.2首次安装启动出现 Erro..

2021-10-14 11:25:27 2667

原创 11. Hadoop完全分布式配置

由于之前已经做了伪分布式配置,在做完全分布式配置之前,需要首先删除master主机hadoop安装路径下的tmp和logs文件夹中的文件:重新配置core-site.xml和hdfs-site.xml,以及mapred-site.xml和yarn-site.xml。(1)首先编辑core-site.xml(2)然后编辑hdfs-site.xml(3)编辑mapred-site.xml(4)编辑yarn-site.xml修改slaves文件压缩hadoop安装文件夹,然后分发到slav.

2021-09-26 23:55:24 7890

原创 10. Hadoop伪分布式配置

在成功安装Hadoop之后,可以开始伪分布式配置。Hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中,伪分布式需要修改2个配置文件core-site.xml和hdfs-site.xml。以hadoop用户登录master主机。修改配置文件core-site.xml查看要修改的配置文件:修改配置文件core-site.xml:修改hdfs-site.xml格式化NameNode(注意只格式化一次即可,重复格式化会引起问题,稍后再讲)启动Hado

2021-09-14 15:39:50 7205

原创 9. SSH服务配置

在CentOS系统中,执行rpm -qa | grep ssh可以检查机器是否安装了SSH服务,使用ps -e | grep sshd指令查看SSH服务是否正常开启:下面开始配置SSH服务:2. 分别在slave01和slave02上删除.ssh文件夹:3. 以hadoop账户登录master,新建SSH公钥私钥对:4. 使用ssh-copy-id命令,复制本地用户的公钥到远程主机指定用户的认证库中,实现本地用户通过SSH免密登录远程主机指定用户:(出现(yes/no),输入ye.

2021-09-13 16:48:22 3532

原创 5. Xshell和Xftp的安装过程

Xshell和Xftp的安装过程Xftp的安装过程如下:

2021-09-05 22:12:15 1390

原创 1. 安装虚拟机软件VMware

只更改了盘符:重启电脑后,首次启动VMware时需要…启动之后的界面如下,下面可以安装虚拟机了。

2021-09-05 22:00:29 1680

原创 2. 安装CentOS虚拟机

选择CentOS的iso虚拟光驱文件(下载的文件在哪个文件夹就到哪里找iso文件):点击上图的“浏览”,找到iso文件:定义Linux主机的名称为master,用户名为hadoop:事先在硬盘建好VM文件夹下的master、slave01、Slave02、Slave03文件夹,分别存放四台Linux主机的虚拟机文件:磁盘大小不能太小,否则后边实验可能做不下去:开始安装CentOS,可能需要几分钟到十几分钟时间:正常启动后,可以登录了:这是登录之后的界面:...

2021-09-01 18:20:21 2637

原创 8. 安装Hadoop

启动master、salve01、slave02、slave03(或者只有一个slave)。以hadoop用户登录master,切换到root用户。进入hadoop安装包所在路径cd /home/hadoop/Downloads将hadoop安装包解压到/usr/local文件夹tar -zxvf hadoop-3.1.3.tar.gz -C /usr/local/配置Hadoop环境变量vi etc/profile打开文件后,把安装JDK时的环境变量设置部分改为:环境变量.

2021-06-16 00:20:10 3769 3

原创 7. 安装JDK,为Hadoop完全分布式部署做准备

安装JDK

2021-06-15 23:40:07 3271

原创 6. 通过Xshell登录四台linux虚拟机

通过Xshell登录四台linux虚拟机

2021-06-03 00:14:54 2761

原创 4. 克隆虚拟机

克隆三台Slave虚拟机slave01、slave02、slave03。首先,关闭master,然后在master上单击右键选择“管理”->“克隆”修改三台slave虚拟机的hostname方法如下(以slave01为例):$ su root$ vi /etc/sysconfig/network......

2021-06-03 00:08:33 4386

原创 3. Linux系统网络配置(待续)

Linux系统网络配置(待续)主机名和IP映射配置开启虚拟机master,以root用户的用户名(root)和密码登录虚拟机。开启终端窗口,进行主机名和IP映射的配置。(1) 配置主机名,具体指令如下:$ vi /etc/sysconfig/network(2) 配置IP映射先查IP地址:选择VMware工具的“编辑”下拉菜单下的“虚拟网络编辑(N)”菜单项,打开虚拟网络编辑器。查到VMware虚拟网络IP地址范围后,执行如下命令进行IP映射文件编辑:$ vi /etc/host

2021-06-02 23:57:46 4341

原创 执行start-dfs.sh时出现错误:there is no HDFS_NAMENODE_USER defined.

完全分布式安装Hadoop时,在执行start-dfs.sh时出现一下错误:[root@hdp1 hadoop]# start-dfs.shStarting namenodes on [hdp1]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Starting datanodesERROR: Atte

2021-05-17 16:45:31 2634 1

原创 Filezilla的连接问题: FATAL ERROR: Network error: Connection timed out

Filezilla软件由Windows向CentOS传输文件,连接一直出问题,经过长时间的尝试,包括关闭两个系统的防火墙、启动SSH,启动Windows中的一些服务等等,都没有解决,最后通过以下步骤终于连接成功。比较奇怪的是只有Filezilla连接不行,其他两个系统互ping,linux上网等都可以。之前用过Filezilla,当时并没有出现连接问题,所以这次出问题的原因不是很明确,有可能和之前卸载虚拟机不干净有关。总之花了一星期业余时间查资料、思考、调试,终于解决了。在虚拟机VMware的“编辑”

2021-04-30 00:20:07 3247 6

一种新的不平衡数据学习算法PCBoost

不平衡数据学习资料,利用重采样和boosting技术分析不平衡数据

2014-01-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除