spark入门_Spark技术入门——配置部署、SparkSQL应用

最新推荐文章于 2023-02-11 10:52:29 发布

weixin_39626162

最新推荐文章于 2023-02-11 10:52:29 发布

阅读量82

点赞数

文章标签： spark入门

#Spark# #大数据# #Hadoop# #大数据分析#

配置：配置主节点和子节点slaves

#指定哪些节点是worker

node2

node3

配置：环境变量sbin/spark-env.sh

#配置java环境变量

export JAVA_HOME=/export/servers/jdk

#指定master的地址

export SPARK_MASTER_HOST=node1

#指定master的端口

export SPARK_MASTER_PORT=7077

启动：bin/start-all.sh

WebUI:IP:8080

2 应用

2.1 执行jar应用：spark-submit：

交互式：spark-shell：scala函数式编程。

2.2 SparkSQL：spark-shell

集成到Spark中，统一的数据源(DataFrame)和标准的数据连接方式(JDBCODBC).

DSL：case class()、textfile.map。

collect展示数据，printschema查询表结构，select查询数据，show展示数据。

case class Emp(empno:Int,ename:String,job:String,mgr:Int,hiredate:String,sal:Int,comm:Int,depno:Int)

val lines=sc.textFile("/user/root/emp.csv").map(_.split(","))

line.collect

val allEmp=lines.map(x=>Emp(x(0).toInt,x(1),x(2),x(3).toInt,x(4),x(5).toInt,x(6).toInt,x(7).toInt))

SQL查询

val df=allEmp.toDF

df.select(“*”).show

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39626162

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

拾叁SparkSQL：SparkSQL有关配置项

someInNeed的博客

01-13

1121

我们学习了 Broadcast Join 这种执行高效的 Join 策略。要想触发 Spark SQL 选择这类 Join 策略，可以利用 SQL Functions 中的 broadcast 函数来强制广播基表。在这种情况下，Spark SQL 会完全“尊重”开发者的意愿，只要基表小于 8GB，它就会竭尽全力地去尝试进行广播并采用 Broadcast Join 策略。除了这种比较“强势”的做法，我们还可以用另一种比较温和方式，来把选择权“下放”给 Spark SQL，让它自己来决定什么时...

Spark入门(二)运行模式及安装部署

PassionZheng的博客

05-19

725

上一节对Spark进行大致的介绍，包括其历史、特点以及各内置模块等方面内容，书归正题，本节就对Spark框架的安装部署进行大致的介绍。部署Spark集群大体上分为两种模式：单机模式与集群模式。大多数分布式框架都支持单机模式，方便开发者调试框架的运行环境，但是在生产环境中，并不会使用单机模式。因此，后续会直接按照集群模式部署Spark集群。 Spark目前支持 4 种运行模式： 1）Local模式：在本地部署单个Spark服务（适用于测试） 2）Standalone模式：并非是单节点，而是使用Spark自

参与评论您还未登录，请先登录后发表或查看评论

spark sql 配置mysql_1、spark-sql配置

weixin_35713824的博客

02-11

265

1、介绍spark SQL是构建在spark core模块上的四大模块之一，提供DataFrame等丰富的API，运行期间通过spark查询优化器翻译成物理执行计划，并行计算输出结果，底层计算原理用RDD计算实现。2、standalone模式下的spark和hive集成1、在 /soft/spark/conf 下创建 /soft/hive/conf/hive-site.xml 的软链接ln -s ...

SparkSQL参数配置指南

yalongwan01的专栏

09-27

4136

--num-executors 设置任务executor个数，默认值为4，一般调整此参数需要同时调整并行度（参考4）。任务设置executor个数的依据是业务期望任务运行时间，可以先设置一个较小值，通过调整此参数及并行度直到运行时间达到期望。 --executor-cores 设置单个executor的core数，默认为1，建议不要超过2。任务申请的总core数为executor个数*单个e...

spark-sql 和 pyspark的配置

LXP

07-22

374

1、 1、**执行spark-sql 报错：sparksql启动报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH** 解决方案：spark无法使用mysql的驱动，访问hive的元数据（mysql数据库），所以需要想办法让spark能引用已存在的访问mysql的驱动。针对已经配置完毕的hive，一般的访问mysql的驱动放在hive的lib库之下，比如：/opt/hive/hi

大数据进阶之路——Spark SQL基本配置

大数据精读周刊

10-02

2430

文章目录Spark安装编译失败环境搭建Standalone本地IDEHiveContextAPPSparkSessinonSpark ShellSpark Sqlthriftserver/beeline的使用jdbc MapReduce的局限性： 1）代码繁琐； 2）只能够支持map和reduce方法； 3）执行效率低下； 4）不适合迭代多次、交互式、流式的处理；框架多样化： 1）批处理（离线）：MapReduce、Hive、Pig 2）流式处理（实时）： Storm、JStorm 3）交互式计算：Imp

Spark入门之六：SparkSQL实战

不积跬步，无以至千里；不积小流，无以成江海！

11-07

3453

介绍 SparkSQL引入了一种新的RDD——SchemaRDD，SchemaRDD由行对象（Row）以及描述行对象中每列数据类型的Schema组成；SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外，还可以通过registerTempTa

大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例

黑泽君

05-04

2128

大数据技术之_19_Spark学习_07_Spark 性能调优 + 数据倾斜调优 + 运行资源调优 + 程序开发调优 + Shuffle 调优 + GC 调优 + Spark 企业应用案例

2022-02-09大数据学习日志——PySpark——Spark框架概述

tingbaobaoo的博客

02-09

1672

前言部分：知识回顾及课程目标 [前言1]-大数据技术框架整个大数据技术框架学习，可以划分为4个阶段：离线分析、内存分析、实时存储和实时分析。 # 第1部分、离线分析（Batch Processing）分布式协作服务框架Zookeeper 大数据基础框架Hadoop（HDFS、MapReduce和YARN）大数据数仓框架Hive 大数据辅助框架：FLUME、SQOOP、Oozie和Hue # 实战项目：亿品新零售 # 第2部分、内存分析（In-Memory Processing）

Spark修炼之道——Spark学习路线、课程大纲

热门推荐

摇摆少年梦的技术博客

08-19

2万+

课程内容 Spark修炼之道（基础篇）——Linux基础（15讲）、Akka分布式编程（8讲） Spark修炼之道（进阶篇）——Spark入门到精通（30讲） Spark修炼之道（实战篇）——Spark应用开发实战篇（20讲） Spark修炼之道（高级篇）——Spark源码解析（50讲）部分内容会在实际编写时动态调整，或补充、或删除。Spark修炼之道（基础篇）——Linux大数据开发基础（15讲

Spark（三）— Spark SQL

ks_1998的博客

05-01

2269

Spark（三）— Spark SQL

十二、Spark SQL数据源 - Hive表

zlwm000的博客

06-17

2272

Spark SQL还支持读取和写入存储在Apache Hive中的数据。然而，由于Hive有大量依赖项，这些依赖项不包括在默认的Spark发行版中，如果在classpath上配置了这些Hive依赖项，Spark就会自动加载它们。需要注意的是，这些Hive依赖项必须出现在所有Worker节点上，因为它们需要访问Hive序列化和反序列化库（SerDes），以便访问存储在Hive中的数据。在使用Hive时，必须实例化一个支持Hive的SparkSession对象。若系统中没有部署Hive，则仍然可以启用Hive

SparkSQL3

cxhiwxj的博客

02-11

199

自己学习

SparkSql的基础操作

qq_47944580的博客

10-25

461

● 与基础 RDD(强类型，无结构) 的 API 不同，Spark SQL 中提供的接口将提供给更多关于结构化数据和计算的信息，并针对这些信息，进行额外的处理优化。○rdd相比于df是缺少结构的，所以我们需要创建一个结构，给rdd拼上。○Row表示每行数据，抽象的。● Spark SQL 是 Spark 处理数据的一个模块。○相当于DataSet的特殊类型，DataSet[Row]○其次就是对rdd处理成Row的类型并把每个字段分开分开。○最后创建df对象，使用spark的api把他们拼接上。

cdh使用sparksql_SparkSQL部署与简单使用

weixin_33683108的博客

02-23

721

一、运行环境ØJDK：1.8.0_45 64位Øhadoop-2.6.0-cdh5.7.0ØScala：2.11.8Øspark-2.3.1-bin-2.6.0-cdh5.7.0(需要自己编译)Øhive-1.1.0-cdh5.7.0ØMySQL5.6二、SparkSQL运行准备#元数据存在MySQL，启动MySQL[root@hadoop001~]#sumysqladmin[mysqlad...

大数据进阶之路——Spark SQL环境搭建

大数据精读周刊

09-30

2469

文章目录大数据概述大数据组成HDFS概述环境搭建HDFS命令YARN架构详解YARN执行流程YARN环境搭建配置虚拟机大数据概述定义和特征海量的计算大量的用户全体数据分析数据管理 4V特征 1.Volume（大量）截至目前，人类生产的所有印刷材料的数据量是200PB，而历史上全人类总共说过的话的数据量大约是5EB。当前，典型个人计算机硬盘的容量为TB量级，而一些大企业的数据量已经接近EB量级。 2.Velocity（高速）这是大数据区分于传统数据挖掘的最显著特征。根据

基于龙伯格（Luenberger）观测器的无感FOC电机矢量控制MATLAB Simulink仿真模型

10-06

基于龙伯格（Luenberger）观测器的无感FOC电机矢量控制MATLAB Simulink仿真模型通过龙伯格观测器，我们可以在不直接测量转子角度的情况下，通过已知的电机电流、电压来估算转子角度。这种方法在控制理论和实际电机控制中具有广泛的应用，尤其是在无传感器的情况下。

web端实现《别踩白块》小游戏

10-06

通过JS实现web的《别踩白块》小游戏

python经典实例代码汇总+100例