Saprk的另一核心=＞《SparkSQL》

最新推荐文章于 2024-07-25 13:50:54 发布

扁担来喽

最新推荐文章于 2024-07-25 13:50:54 发布

阅读量362

点赞数 6

分类专栏： spark 文章标签：大数据 spark

本文链接：https://blog.csdn.net/hxhxhzjz/article/details/136220199

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、简介

1.1 简介

SaprkSQL时Spark专门针对结构化数据处理的一个组件，可以利用他快速简单的处理结构化数据，他可以加载结构化数据，并将其映射成数据表，利用SQL进行数据处理

SparkSQL 其实是对Spark-core处理结构化数据的底层原理进行了封装

底层的物理执行计划还是spark-core的执行过程

1.2 特点

1.2.1 易整合

sparkSQL 可以在spark的编程中，将SQL和算子进混合使用，使编程更加的灵活

val res = spark.sql("select * from tb_user")

res.map()

1.2.2 统一的数据访问方式

sparkSQL为各种不同类型的数据源提供统一的访问方式，可以跨各类数据源进行join，支持的数据源如：csv，tcv(tab键作为分隔符)，hive，Avro，Parquet，orc(列式存储文件格式，本身就是有结构的)，json，jdbc

1.2.3 兼容hive

sparkSQL的server模式，可以为各类bi工具提供标准的JDBC、ODBC连接

SparkSQL可以看做一个转换层，向下对接各种不同的结构化数据源，向上提供不同的数据访问方式

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

扁担来喽

关注关注

6
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Saprk的另一核心=＞《SparkSQL》

教会你spark-sql
复制链接

扫一扫

专栏目录

“Spark三剑客”之SparkCore和SparkSql学习笔记（零基础入门）（一）

默主归沙的博客

04-06

2939

目录 1 Spark的介绍 1.1 Spark的定义 1.2 Spark为什么比MapReduce快？ 1.3 RDD 弹性式分布式数据集 1.4 MasterURL 1 Spark的介绍 1.1 Spark的定义它是一个集成了离线计算、实时计算、SQL查询、机器学习、图计算为一体的一站式框架。一站式的体现：既可以做离线计算（批处理），也可以做其他的（SQL查询、机器学习、图计算） flink对于机器学习、图计算支持真的的不太友好哈。 1.2 Spark为什么比MapRe

Spark | SparkSQL架构

俗人

07-01

927

目录 SparkSQL DataFrame API DataFrame & DataSet & RDD 三者区别 SparkSQL 组成 SparkSQL Catalyst Optimizer Tree TreeNode QueryPlan Expression Rule RuleExecutor Catalyst大致流程 References spark.version = 2.4.4 站在上帝角度学习下SparkSQL架构相关内容 SparkSQL ...

参与评论您还未登录，请先登录后发表或查看评论

153-184-spark-核心编程-sparksql

qq_37171694的博客

12-13

190

spark-153-184

SparkSQL

热门推荐

lydms的博客

11-03

1万+

一、概述二、Spark SQL编程三、SparkSQL数据加载和保存

【Spark精讲】记一个SparkSQL引擎层面的优化：SortMergeJoinExec

话数Science

01-02

755

SortMergeJoin的实现方式并不用将一侧的数据全部加载后进行Join操作，其前提条件是需要在Join操作前将数据排序，为了让两条记录链接到一起，需要将具有相同Key记录分发到同一个分区，因此一般会进行一次Shuffle操作（即物理执行计划中的Exchange节点），根据Key分区，将连接到一起的记录分发到同一个分区内，这样在后续的Shuffle阶段就可以将两个表中具有相同Key记录分到同一个分区处理."，不同表的角色在Spark SQL中会通过一定的策略进行设定，通常来讲，系统会。

Spark~~SparkSQL

weixin_44911248的博客

07-21

1521

SparkSQL

SparkSQL核心编程

twi_twi的博客

08-22

609

SparkSQL的简单使用

Spark学习（8）-SparkSQL的运行流程，Spark On Hive

一个人的江湖

01-07

2650

将Filter这种可以减少数据集的操作下推，放在Scan的位置，这样可以减少操作时候的数据量。RDD的运行会完全按照开发者的代码执行，如果开发者水平有限，RDD的执行效率也会受到影响。当使用ThriftServer后，相当于是一个持续性的Spark On Hive集成模式，它提供10000端口，持续对外提供服务，外部可以通过这个端口连接上来，写sql，让Spark运行。上面的过程生成的AST其实最终没有办法直接运行，AST叫做逻辑计划，结束后需要生成物理计划，从而生成RDD来运行。

spark学习(6)之SparkSQL基础

枣泥馅的博客

01-16

1857

一、Spark SQL的基础： 1、Spark SQL的简介 Spark SQL is Apache spark’s module for working with structured data Spark SQL 是apache spark用来出来结构化数据的模块特点： (1)容易集成成，安装好spark后就带有spark sql了 (2)统一的数据访问接口DataFrame (3)兼容hive (4)支持标准的数据访问方式：JDBC,ODBC 2、SparkSQL的核心数据模型是DataFrame：

Spark计算引擎之SparkSQL详解

01-27

Spark SQL是Apache Spark的核心组件之一，它为处理结构化数据提供了强大的工具，旨在解决传统MapReduce计算模型的低效率问题。Spark SQL起源于Shark项目，最初是为Spark设计的一个大规模数据仓库系统，旨在加速Hive...

SparkSQL源码分析之核心流程

03-03

自从去年SparkSubmit2013MichaelArmbrust分享了他的Catalyst，到至今1...前一段时间测试过Shark，并且对SparkSQL也进行了一些测试，但是还是忍不住对SparkSQL一探究竟，就从源代码的角度来看一下SparkSQL的核心执行流程

Spark+SparkSQL+Spark Streaming+Spark Core+数据处理

03-18

Spark的核心特性是弹性分布式数据集（RDD），这是一种分布式、不可变的数据结构，适合大规模并行处理。Spark提供了多样的运行模式，如独立集群、Hadoop环境以及云服务，同时支持HDFS、HBase、Hive等多种数据源。 ...

分布式系统常见软件架构模式

Ben的专栏

07-25

858

简而言之，有效管理数据和通信流对于构建健壮且可扩展的分布式系统至关重要。对等、API 网关、发布-订阅、请求-响应、事件溯源、ETL、批处理、流处理和编排等架构模式提供了有价值的解决方案，以应对系统设计和实现中的各种挑战。通过理解这些软件架构和分布式系统模式及其各自的优势和权衡，架构师和开发人员可以做出明智的决策，设计出满足其应用程序和用户不断变化的需求的系统。

数据分析师学习路线与就业环境分析报告

关注收藏，可以私信解决问题！

07-23

939

数据分析师负责收集、处理和分析数据，以帮助企业做出基于数据的决策。他们使用统计方法、数据建模和数据可视化技术来解释复杂的数据集。

Spark RPC框架详解

小昌昌的博客

07-22

989

SparkContext构造过程的重要一步，就是Driver、ApplicationMaster以及Executor之间的协调和通信过程，这是基于RPC进行的。这里的Spark RPC是基于Netty的通信过程，而Netty的通信其实是基于Reactor架构进行的，Reactor架构其实是基于Java NIO模型进行的。本文详细讲解了基于Netty 的 SparkRPC 框架的实现细节。

科普文：搭建信贷业务大数据风控体系

为无为，事无事，味无味。

07-22

918

大家好，本期为大家介绍如何从0到1搭建大数据风控体系。分为：获客、贷前、贷中、贷后、主要数据维度，以及如何识别风险客户。

杭州东网约车管理再出行方面取得的显著成效