Ubuntu中使用Spark SQL的前提条件

最新推荐文章于 2022-08-13 16:50:37 发布

氓酒

最新推荐文章于 2022-08-13 16:50:37 发布

阅读量333

点赞数

文章标签： hive hadoop 大数据 spark ubuntu

本文链接：https://blog.csdn.net/syan_1_3_1_4/article/details/107682091

版权

Ubuntu中使用spark SQL的前提条件

要成功使用 spark-sql 就要启动 hive ，而启动 hive 就要启动 Hadoop ，而要成功启动 pyspark 就要启动 spark。

1、启动Hadoop
【在$HADOOP_HOME/sbin目录下用命令start-all.sh】

// 进入相应的工作目录
cd /home/syan/Hbase/hadoop/sbin
// 启动
start-all.sh

在这里插入图片描述

注：如果你不想每次都进入这个目录去执行这个文件，那你可以选择设置临时环境或永久性环境。设置方法请看Ubuntu中设置PATH变量值

用jps查看是否有相关进程
在这里插入图片描述

2、启动 Spark Standalone 模式
【即在$SPARK_HOME/sbin下运行start-spark.sh文件】

// 进入相应的工作目录
cd /home/syan/Spark/spark/sbin
// 启动
start-spark.sh

在这里插入图片描述
用jps查看是否有相关进程

3、启动pyspark环境
【即在$SPARK_HOME/bin下执行pyspark命令】

// 进入相应的工作目录
cd /home/syan/Spark/spark/bin
// 改成自己的主机名，然后启动
pyspark --master spark://syan:7077

在这里插入图片描述

4、启动metastore

注：在启动的spark的时候要再开一个独立的会话在hive解压目录下的bin目录下执行这条命令（/home/syan/Hive/hive/bin），使得metastore开起来

hive --service metastore

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

氓酒

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Hadoop 和 Spark 安装、环境配置与使用教程.pdf

07-22

### Hadoop 和 Spark 的安装、环境配置与使用教程 #### 一、系统和软件要求在开始安装Hadoop和Apache Spark之前，确保你的系统满足以下要求： - **操作系统**: Ubuntu 18.04 或其他支持的 Linux 发行版。 - **...

SparkSQL基础知识总结

ciyu2798的博客

07-29

131

一.SparkSQL架构 1.架构 2.解释一个s...

参与评论您还未登录，请先登录后发表或查看评论

Ubuntu搭建Spark运行环境

weixin_30652491的博客

07-11

199

前言因为之前研究的方向是分布式系统，重点放在了Hadoop分布式文件系统上。现如今，社会对机器学习的需求势如破竹。为了调整研究方向，而且不抛弃原本的研究成果，研究反向便从分布式系统转为分布式机器学习算法（刚起步，可能这种说法会不太正确）。Spark MLlib是Apache Spark的可扩展的机器学习库，并提供有Scala，Java，Python的API。Mahout 是 ...

【大数据技术】Spark-SQL如何连接MySQL并进行读写数据

u011762522的博客

08-13

3035

【大数据技术】spark SQL如何连接MySQL并读取数据

Ubuntu 16.04下Spark安装与开发环境搭建

热门推荐

lengconglin的博客

09-05

1万+

一、Spark运行环境　　Spark是Scala写的，运行在JVM上，所以运行环境Java7+，如果使用Python API，需要安装Python 2.6+或者Python3.4+，安装之前确认已经安装了Java,可参见本人博客：http://blog.csdn.net/lengconglin/article/details/77016911 　　这里注意版本对应问题，2.0以上都对应

Ubuntu14.04下单机版Spark的部署

predict_wise的博客

03-11

3349

在写本篇博客之前，我也是查阅了许多资料，从官方文档到国内外多名网友的教程，但他们写的不是那么的具体，以至于在实际部署的时候遇到了好几个麻烦，浪费了很多时间，但这样一来二去也算是对Spark有了一个比较浅显的初步认识，因祸得福了吧。废话不多说了，直接上干货。本博文所使用的系统为Ubuntu 14.04 64位安装安装JDK，这一步我在这里就不再赘述了，想必稍微有点开发经验的朋友都早已配置

docker-spark:用于在Ubuntu上运行Apache Spark的Dockerfile

04-29

它还支持一组丰富的更高级别的工具，包括用于SQL和结构化数据的处理，机器学习，用于图形处理和。什么是Docker？ Docker是一个开放平台，供开发人员和系统管理员构建，交付和运行分布式应用程序。 Docker由便携...

spark-3.2.0-bin-hadoop3-without-hive

04-24

需要注意的是，对于没有 Hive 支持的 Spark，你可能需要使用其他方式来实现数据仓库的功能，比如使用 Parquet 或 Avro 格式存储数据，或者利用 Spark 自身的数据湖解决方案——Delta Lake。总结来说，“spark-...

Ubuntu 16.04下JDK+Hadoop+Spark环境搭建

07-03

在这个环境中，你可以使用Hadoop进行分布式存储，利用Spark进行大数据处理，结合Java编写应用程序，实现对海量数据的高效分析。这样的配置对于学习大数据技术、进行数据分析项目或构建生产级大数据平台都非常有帮助...

基于Spark的电商数据分析

最新发布

07-11

- model： Spark SQL样例类，包括Spark SQL中的用户访问动作表、用户信息表、产品表的样例类 - pool：MySQL连接池，通过自定义MySQL连接池，实现对MySQL数据库的操作 - utils：工具类，提供了日期时间工具类、数字...

Spark SQL内置函数的使用Spark SQL执行计划总结

UnionIBM的博客

01-18

7663

个人感觉Spark SQL的优势在于UDF和DataFrame(RDD的封装，由于RDD是可以是任意类型，因此可以封装一个对象在RDD里面，spark2.0以后对DataSet做了优化，由于DataFrame是弱类型的判断，DataSet是静态类型的在数据的优化和性能上应该有更大的提升) 本文的操作spark 1.6.1 内置函数需要倒入 import org.apache.spark.s

ubuntu中spark使用mysql 图文教程

wyx100的专栏

07-16

1303

ubuntu中spark使用mysql 图文教程 大数据 spark 操作mysql数据库

Spark安装（Ubuntu环境下）

Liu_Arvin的芝士小栈

10-23

6796

Spark安装（Ubuntu环境下）

Ubuntu系统下载并安装MySQL并在Spark环境下使用jdbc连接MySQL数据库总结

进阶的博客

05-03

2324

操作系统：虚拟机中搭建的Ubuntu18.04 Spark版本：spark-2.3.0-bin-hadoop2.7 MySQL版本： JDBC驱动压缩包：mysql-connector-java-8.0.16.jar 安装并使用MySQL的前提：已经安装好了Spark并且能正常运行。 MySQL的下载安装及配置： 1、MySQL的下载安装 Ubuntu系统中安装MySQL相当容易，只...

spark集群的启动流程

bokzmm的博客

03-07

1596

总体来说spark集群的启动流程可以分为五步，下面结合下图来具体分析一下spark集群在启动的流程。（1）、创建Master对象，启动了一条Master进程。然后，执行preStart生命周期方法，开启一个定时器定期检测超时的worker节点；如果发现超时的worker节点，则将其移除。（2）、加载slaves文件，启动worker节点。（3）、worker节点启动后，开始向master注册...

SparkSQL操纵Hive（一）：系统准备

m0_37324825的博客

11-28

267

安装Ubuntu 16.04 LTS虚拟机详细安装过程见《VMware 12 安装Ubuntu 16.04 (图文教程)》。此处是手动安装Ubuntu，而没有采用Vmware的简易安装方法。采样简易安装时，发现启动ssh时会失败，检查日志发现出现如下错误。 Upstart: Failed to connect to socket /com/ubuntu/upstart Failed to st...

Spark实战(八)spark的几种启动方式

钟晚语夕的专栏

02-18

4557

spark常用的启动方式一、Local(本地模式) Spark单机运行，一般用于开发测试。可以通过Local[N]来设置，其中N代表可以使用N个线程，每个线程拥有一个core。如果不指定N，则默认是1个线程（该线程有1个core）。spark-submit 和 spark-submit --master local 效果是一样的，同理spark-shell 和 spark-shell --...

Spark教程——（8）本地执行spark-sql程序

weixin_30765475的博客

09-19

714

在程序中设定Spark SQL的运行模式： //.setMaster("local")设置本地运行模式 val conf = new SparkConf().setAppName("fdsf").setMaster("local") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) 一...

Spark简介及其在ubuntu下的安装使用

架构设计

08-11

427

Spark概述 Spark 是一种与 Hadoop 相似的开源集群计算环境，在性能和迭代计算上很有看点，现在是Apache孵化的顶级项目吧。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代...

使用Spark SQL整合Hive元数据操作指南

本文档主要介绍了在Ubuntu 18.04.2环境下，如何为RTX 2080显卡安装NVIDIA驱动，并详细阐述了如何在搭建好的Hadoop集群、Hive数据仓库和Spark集群基础上，进行SparkSQL与Hive的整合。此外，文档还探讨了电商大数据...