spark 环境搭建

本文档详细介绍了在CentOS 7.2上搭建Spark环境的步骤,包括配置VMware虚拟机IP,安装jdk 1.8、Hadoop cdh5.7.0、mysql、Hive、Scala 2.12.8、maven 3.5.4,以及源码编译和搭建Spark local和Standalone环境。
摘要由CSDN通过智能技术生成

1、为 VMware 的虚拟机绑定 IP 地址

  1. 查看IP地址子网ip、子网掩码、和网关
    编辑 --> 虚拟网络编辑器 --> NET设置
    在这里插入图片描述

  2. 修改虚拟机网关

    sudo vim /etc/sysconfig/network-scripts/ifcfg-ens33
    

    设置 BOOTPROTO=static,并在文件最后添加 IPADDR、NETMASK、NETMASK 和 DNS1 的配置

    IPADDR=192.168.48.143
    NETMASK=255.255.255.0
    GATEWAY=192.168.48.2
    DNS1=8.8.8.8
    
  3. 重启网卡,使得配置生效

    sudo service network restart
    

2、环境参数

  • Linux版本: CentOS 7.2
  • jdk版本: 1.8
  • Hadoop版本: hadoop-2.6.0-cdh5.7.0
  • Scala版本: 2.12.8
  • Spark版本: spark-2.4.3 (spark最新版本2.4.3依赖scala2.12,maven3.5.4以上)
  • 开发工具: IDEA
  • CDH相关下载地址http://archive.cloudera.com/cdh5/cdh/5/
  • 项目目录
    # 登录用户:zcx
    # ~ 目录下,新建文件夹
    # app 存放所有软件的安装目录
    # data 存放测试数据
    # lib 存放开发的jar
    # software 存放软件安装包的目录
    # source 存放框架源码
    # maven_repository maven仓库
    # shell 存放运行的脚本
    

3、环境搭建

3.1 安装 jdk 1.8

# 服务器登录用户为 zcx

# software路径:~/software

# 上传jdk -- jdk-8u191-linux-x64.tar.gz
[zcx@zoucaoxin software]$ rz -y    

# 解压到:~/app
[zcx@zoucaoxin software]$ tar -zxvf jdk-8u191-linux-x64.tar.gz -C ~/app/

# 添加环境变量
[zcx@zoucaoxin app]$ vim ~/.bash_profile
# 添加如下
export JAVA_HOME=/home/zcx/app/jdk1.8.0_191
export JRE_HOME=/home/zcx/app/jdk1.8.0_191/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

# 让新加的环境变量生效
source ~/.bash_profile

# 验证成功
java -version

3.2 安装 Hadoop – cdh5.7.0

# 服务器登录用户为 zcx
# 下载地址:http://archive.cloudera.com/cdh5/cdh/5/
# software路径:~/software

# 配置host
[zcx@zoucaoxin ~]$ sudo vim /etc/hosts
# 如果使用阿里云服务器,配置时结点使用阿里云服务器的内网ip,其他的结点使用外网ip.结点名称为主机名
192.168.48.143  zoucaoxin


# 配置免密登录
[zcx@zoucaoxin ~]$ ssh-keygen -t rsa  #一直回车即可
# ls -la   显示 ~ 目录下 隐藏的 .ssh 文件
# cd .ssh/ 进入 .ssh 文件
# 将根目录里面的 .ssh 目录下的 id_rsa.pub 文件拷贝到一个叫 authorized_keys 的固定文件中去
[zcx@zoucaoxin ~]$ cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
# cat authorized_keys 查看该文件内容
# 验证配置成功
# 第一次登录需要验证身份,exit 退出后,再次登录不需要再验证身份了
[zcx@zoucaoxin ~]$ ssh localhost
  

# 上传hadoop -- hadoop-2.6.0-cdh5.7.0.tar.gz
[zcx@zoucaoxin software]$ rz -y


# 解压到:~/app
[zcx@zoucaoxin software]$ tar -zxvf hadoop-2.6.0-cdh5.7.0.tar.gz -C ~/app/


# 添加环境变量
[zcx@zoucaoxin app]$ vim ~/.bash_profile
# 添加如下
export HADOOP_HOME=/home/zcx/app/hadoop-2.6.0-cdh5.7.0
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH


# 让新加的环境变量生效
source ~/.bash_profile


# 配置 hadoop-env.sh
[zcx@zoucaoxin hadoop-2.6.0-cdh5.7.0]$ vim etc/hadoop/hadoop-env.sh
# 修改hadoop-env.sh中的 JAVA_HOME 路径
export JAVA_HOME=/home/zcx/app/jdk1.8.0_191


# 配置 core-site.xml
[zcx@zoucaoxin hadoop-2.6.0-cdh5.7.0]$ vim etc/hadoop/core-site.xml
# 修改core-site.xml如下
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://zoucaoxin:9000</value>
    </proper
Spark环境搭建与使用 Apache Spark是一个开源的大数据处理框架,可以快速、高效地处理大规模的数据集。它支持多种数据处理方式,包括批处理、流处理和机器学习等。 Spark可以在本地模式下运行,也可以在分布式模式下运行。在分布式模式下,Spark可以利用多台服务器的计算资源,进行大规模的数据处理。 本文将介绍如何在本地环境中搭建Spark,并通过一个简单的例子来演示Spark的使用。 Spark环境搭建 在开始之前,需要确认已经安装了Java环境。可以通过以下命令检查Java环境是否已经安装: ``` java -version ``` 如果Java环境没有安装,可以去官网下载并安装Java。 接下来,需要下载Spark。可以从官网下载最新版本的Spark。下载完成后,解压缩到指定目录。 打开终端,进入Spark的bin目录,执行以下命令启动Spark: ``` ./spark-shell ``` 这个命令将启动Spark的交互式Shell。在Shell中,可以输入Spark的API命令进行数据处理。 Spark使用示例 下面,通过一个简单的例子来演示Spark的使用。该例子将统计一组数字中的奇数个数。 首先,在Spark的Shell中,创建一个RDD: ``` val nums = sc.parallelize(1 to 10) ``` 这个命令将创建一个包含1到10的数字的RDD。接下来,通过filter()方法,筛选出奇数: ``` val odds = nums.filter(_ % 2 != 0) ``` 这个命令将创建一个包含奇数的RDD。最后,通过count()方法,计算奇数的个数: ``` val count = odds.count() ``` 这个命令将返回奇数的个数。可以通过以下命令输出结果: ``` println(count) ``` 这个例子演示了Spark的基本用法。通过Spark的API,可以快速、高效地处理大规模的数据集。 总结 本文介绍了如何在本地环境中搭建Spark,并通过一个简单的例子来演示Spark的使用。Spark是一个强大的大数据处理框架,可以帮助我们快速、高效地处理大规模的数据集。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值