RedHat6.5安装Spark单机

版本号:

RedHat6.5   RHEL 6.5系统安装配置图解教程(rhel-server-6.5)

JDK1.8      http://blog.csdn.net/chongxin1/article/details/68957808

Hadoop2.7.3    RedHat6.5上安装Hadoop单机

scala-2.11.8  

spark-2.1.1-bin-hadoop2.7

1 安装Spark依赖的Scala

          Hadoop的安装请参考上面提到的博文,因为Spark依赖scala,所以在安装Spark之前,这里要先安装scala。

1.1  下载和解压缩Scala

 

官网下载地址:https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz 

百度云盘下载地址:链接:http://pan.baidu.com/s/1eSiVjO2 密码:y8b1 

linux在服务器的/usr/local目录下新建一个名为scala的文件夹,并将下载的压缩包上载上去

如图: 

执行命令,进入到该目录:

cd    /usr/local/scala

执行命令进行解压缩:

tar   -xvf   scala-2.11.8.tgz

1.2  配置环境变量

sudo gedit /et/profile

编辑/etc/profile这个文件,在文件中增加一行配置:

 
  1. #set Scala environment
  2. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  3. export PATH=$SCALA_HOME/bin:$PATH

  添加完成后,我的/etc/profile的配置如下:

 
  1. #set Java environment
  2. export JAVA_HOME=/usr/local/java/jdk1.8
  3. export JRE_HOME=/usr/local/java/jdk1.8/jre
  4. export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
  5. export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
  6.  
  7. #set Hadoop enviroment
  8. export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
  9. export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
  10. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  11. export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop​
  12.  
  13. #set Scala environment
  14. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  15. export PATH=$SCALA_HOME/bin:$PATH

环境变量配置完成后,执行下面的命令: 

source   /etc/profile  

1.3 验证Scala

    执行命令: scala     -version  

   如图:    

2 下载和解压缩Spark      

2.1 下载Spark压缩包

官网下载地址:http://mirrors.hust.edu.cn/apache/spark/spark-2.1.1/spark-2.1.1-bin-hadoop2.7.tgz  

百度云盘下载地址:链接:http://pan.baidu.com/s/1cGTtgU 密码:hciq      

2.2  解压缩Spark

       下载完成后,在Linux服务器的/usr/local目录下新建一个名为spark的文件夹,把刚才下载的压缩包,上传上去。

如图:

进入到该目录内,也就是执行下面的命令:

cd    /usr/local/spark

执行解压缩命令:

tar   -zxvf   spark-2.1.1-bin-hadoop2.7.tgz

3  Spark相关的配置

3.1  配置环境变量

sudo gedit /etc/profile

编辑/etc/profile文件,增加

 
  1. #set Spark environment
  2. export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
  3. export PATH=$SPARK_HOME/bin:$PATH

      注意:因为$SPARK_HOME/sbin目录下有一些文件名称和$HADOOP_HOME/sbin目录下的文件同名,为了避免同名文件冲突,这里不在PATH变量里添加$SPARK_HOME/sbin只添加了$SPARK_HOME/bin。

修改完成后,/etc/profile文件内容是:

 
  1. #set Java environment
  2. export JAVA_HOME=/usr/local/java/jdk1.8
  3. export JRE_HOME=/usr/local/java/jdk1.8/jre
  4. export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
  5. export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH
  6.  
  7. #set Hadoop enviroment
  8. export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
  9. export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
  10. export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
  11. export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop​
  12.  
  13. #set Scala environment
  14. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  15. export PATH=$SCALA_HOME/bin:$PATH
  16.  
  17. #set Spark environment
  18. export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
  19. export PATH=$SPARK_HOME/bin:$PATH

编辑完成后,执行命令:

source   /etc/profile

3.2 配置conf目录下的文件

         对/usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf目录下的文件进行配置。

3.2.1  新建spark-env.h文件

        执行命令,进入到/usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf目录内:

cd    /usr/local/spark/spark-2.1.1-bin-hadoop2.7/conf

       以spark为我们创建好的模板创建一个spark-env.h文件,命令是:

cp    spark-env.sh.template   spark-env.sh   

编辑spark-env.sh文件,在里面加入配置(具体路径以自己的为准):

 
  1. export JAVA_HOME=/usr/local/java/jdk1.8
  2. export SCALA_HOME=/usr/local/scala/scala-2.11.8
  3. export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
  4. export HADOOP_DIR=$HADOOP_HOME/etc/hadoop
  5. export SPARK_HOME=/usr/local/spark/spark-2.1.1-bin-hadoop2.7
  6. export SPARK_MASTER_IP=master
  7. export SPARK_EXECUTOR_MEMORY=1g

 

4 启动和测试Spark

4.1 启动Spark

       因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在正常运行

        在hadoop正常运行的情况下,在master(也就是hadoop的namenode,spark的marster节点)上执行命令:

 cd  /usr/local/spark/spark-2.1.1-bin-hadoop2.7/sbin

 执行启动脚本:

  ./start-all.sh 

  完整控制台输出内容是:

 
  1. [root@master sbin]#   ./start-all.sh 
  2. starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.master.Master-1-master.out
  3. localhost: starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/spark-2.1.1-bin-hadoop2.7/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-master.out
  4. [root@master sbin]# jps
  5. 5872 Jps
  6. 4849 SecondaryNameNode
  7. 5714 Master
  8. 5810 Worker
  9. 4676 DataNode
  10. 5126 NodeManager
  11. 5015 ResourceManager
  12. 4542 NameNode

5714 Master
5810 Worker

有这两个就是spark已经启动成功!!!

注意:上面的命令中有./这个不能少,./的意思是执行当前目录下的start-all.sh脚本。

4.2  测试和使用Spark集群

4.2.1  访问Spark集群提供的URL

在浏览器里访问Mster机器,我的Spark集群里Master机器是master,IP地址是192.168.168.200,访问8080端口,URL是:

http://192.168.168.200:8080       

如图: 

参考资料:http://blog.csdn.net/pucao_cug/article/details/72353701

转载于:https://my.oschina.net/u/3616609/blog/1475086

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SQLAlchemy 是一个 SQL 工具包和对象关系映射(ORM)库,用于 Python 编程语言。它提供了一个高级的 SQL 工具和对象关系映射工具,允许开发者以 Python 类和对象的形式操作数据库,而无需编写大量的 SQL 语句。SQLAlchemy 建立在 DBAPI 之上,支持多种数据库后端,如 SQLite, MySQL, PostgreSQL 等。 SQLAlchemy 的核心功能: 对象关系映射(ORM): SQLAlchemy 允许开发者使用 Python 类来表示数据库表,使用类的实例表示表中的行。 开发者可以定义类之间的关系(如一对多、多对多),SQLAlchemy 会自动处理这些关系在数据库中的映射。 通过 ORM,开发者可以像操作 Python 对象一样操作数据库,这大大简化了数据库操作的复杂性。 表达式语言: SQLAlchemy 提供了一个丰富的 SQL 表达式语言,允许开发者以 Python 表达式的方式编写复杂的 SQL 查询。 表达式语言提供了对 SQL 语句的灵活控制,同时保持了代码的可读性和可维护性。 数据库引擎和连接池: SQLAlchemy 支持多种数据库后端,并且为每种后端提供了对应的数据库引擎。 它还提供了连接池管理功能,以优化数据库连接的创建、使用和释放。 会话管理: SQLAlchemy 使用会话(Session)来管理对象的持久化状态。 会话提供了一个工作单元(unit of work)和身份映射(identity map)的概念,使得对象的状态管理和查询更加高效。 事件系统: SQLAlchemy 提供了一个事件系统,允许开发者在 ORM 的各个生命周期阶段插入自定义的钩子函数。 这使得开发者可以在对象加载、修改、删除等操作时执行额外的逻辑。
SQLAlchemy 是一个 SQL 工具包和对象关系映射(ORM)库,用于 Python 编程语言。它提供了一个高级的 SQL 工具和对象关系映射工具,允许开发者以 Python 类和对象的形式操作数据库,而无需编写大量的 SQL 语句。SQLAlchemy 建立在 DBAPI 之上,支持多种数据库后端,如 SQLite, MySQL, PostgreSQL 等。 SQLAlchemy 的核心功能: 对象关系映射(ORM): SQLAlchemy 允许开发者使用 Python 类来表示数据库表,使用类的实例表示表中的行。 开发者可以定义类之间的关系(如一对多、多对多),SQLAlchemy 会自动处理这些关系在数据库中的映射。 通过 ORM,开发者可以像操作 Python 对象一样操作数据库,这大大简化了数据库操作的复杂性。 表达式语言: SQLAlchemy 提供了一个丰富的 SQL 表达式语言,允许开发者以 Python 表达式的方式编写复杂的 SQL 查询。 表达式语言提供了对 SQL 语句的灵活控制,同时保持了代码的可读性和可维护性。 数据库引擎和连接池: SQLAlchemy 支持多种数据库后端,并且为每种后端提供了对应的数据库引擎。 它还提供了连接池管理功能,以优化数据库连接的创建、使用和释放。 会话管理: SQLAlchemy 使用会话(Session)来管理对象的持久化状态。 会话提供了一个工作单元(unit of work)和身份映射(identity map)的概念,使得对象的状态管理和查询更加高效。 事件系统: SQLAlchemy 提供了一个事件系统,允许开发者在 ORM 的各个生命周期阶段插入自定义的钩子函数。 这使得开发者可以在对象加载、修改、删除等操作时执行额外的逻辑。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值