spark数据查询语句select_使用PySpark编写SparkSQL程序查询Hive数据仓库

最新推荐文章于 2022-12-22 18:57:22 发布

Doreen Wat

最新推荐文章于 2022-12-22 18:57:22 发布

阅读量1.2k

点赞数

文章标签： spark数据查询语句select

本文链接：https://blog.csdn.net/weixin_42509597/article/details/112053874

版权

本文介绍如何使用PySpark编写Python脚本来连接Hive数据仓库并执行SQL查询。通过设置SparkConf和SparkContext，创建HiveContext执行SQL语句。脚本示例中展示了对Hive表的聚合查询，包括条件判断和分组求和。最后提到了使用`spark-submit`提交作业时的参数调优，如`num-executors`、`executor-memory`、`executor-cores`和`spark.default.parallelism`，以及SparkSQL相比于Hive的性能提升。

摘要由CSDN通过智能技术生成

作业脚本采用Python语言编写，Spark为Python开发者提供了一个API—–PySpark，利用PySpark可以很方便的连接Hive

下面是准备要查询的HiveSQL

select

sum(o.sale_price)

,sum(case when cate_id2 in(16,18) then o.sale_price else 0 end )

,sum(CASE WHEN cate_id2 in(13,15,17,19,20,21,22,156) THEN o.sale_price else 0 end )

FROM dw.or_order_item_total o

join dw.cd_item_total i on o.item_id = i.item_id and i.ds ='2018-03-31'

WHERE o.ds = '2018-03-31' and substr(o.ord_tm,1,7) ='2018-03'

;

下面是准备提交的Python脚本

#!/usr/bin/python

#-*-coding:utf-8 -*-

from pyspark import SparkConf, SparkContext

from pyspark.sql import HiveContext

import sys

def test():

reload(sys)

sys.setdefaultencoding( "utf-8" )

conf = SparkConf().setMaster("yarn-client").setAppName("My App")

sc &

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Doreen Wat

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

spark数据查询语句select_Spark学习之Spark SQL

weixin_35025136的博客

12-30

4906

Spark SQL一、Spark SQL基础1、Spark SQL简介Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL为什么要学习Spark SQL？我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执...

pyspark 数据写入hive_在python中使用pyspark读写Hive数据操作

weixin_35853083的博客

12-23

3030

1、读Hive表数据pyspark读取hive数据非常简单，因为它有专门的接口来读取，完全不需要像hbase那样，需要做很多配置，pyspark提供的操作hive的接口，使得程序可以直接使用SQL语句从hive里面查询需要的数据，代码如下：from pyspark.sql import HiveContext,SparkSession_SPARK_HOST = "spark://spark-mas...

参与评论您还未登录，请先登录后发表或查看评论

在python中使用pyspark读写Hive数据操作

09-16

主要介绍了在python中使用pyspark读写Hive数据操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

python写sparksql_使用PySpark编写SparkSQL程序查询Hive数据仓库

weixin_39572316的博客

12-06

447

作业脚本采用Python语言编写，Spark为Python开发者提供了一个API-----PySpark，利用PySpark可以很方便的连接Hive下面是准备要查询的HiveSQLselectsum(o.sale_price),sum(case when cate_id2 in(16,18) then o.sale_price else 0 end ),sum(CASE WHEN cate_id2...

Spark编程指南——Python版

大数据技术杂谈

04-26

3522

自开源之日至今，Spark已经5岁了。从最初不到4000行代码发展到当下通用大数据处理引擎的有力竞争者，Spark一直保持着小而紧凑，使许多开发人员更容易理解，也让升级起来更加方便。快、通用让Spark如鱼得水，然而对于1个年仅5岁的开源项目来说，其远谈不上尽善尽美，就比如文档相关。近日 @Cholerae从官网翻译了Spark编程指南Python版，并发布于其个人博客。以下为原文

pyspark.SparkSession查询hive数据写入mysql

AyubLIbra的博客

08-21

658

# -*- coding: utf-8 -*- # created by say 2021-06-09 from pyspark.sql import SparkSession import datetime import logging import pymysql import sys, os sys.path.append(os.getcwd()) isPrd = True MP_DB_CONNECT_INFO = \ {'host': '123456.mysql.aliyun.co.

[亲身实践]pyspark读取hive中的表的两种方式

m0_46651978的博客

12-24

5034

1.window上无法连接到hive,linux上能连接到hive 法一 (1)把/opt/soft/hive110/conf/hive-site.xml复制到/opt/soft/spark234/conf/hive-site.xml hive-site.xml不用改变任何东西 (3)开始启动pyspark [root@joy sbin]# ./start-all.sh starting org.apache.spark.deploy.master.Master, logging to /opt/s

pyspark之sparksql数据流转

热门推荐

刘小生Star

07-29

1万+

PySpark之选择特征select、筛选filter、聚合运算、group by、join table、inner join 、left join、right join、full outer join，如下所示： from __future__ import print_function, division from pyspark import SparkConf, SparkContext...

pyspark多线程DF写Hive，出现重复数据及解决办法

ZL_javaco的博客

12-01

1416

背景：数据中某字段A需要进行转换，批次拉取后进行行处理为提高效率，将大批次分为10个小批次，分线程处理 read_df = hive_context.sql(hivesql) allrows = read_df.collect() #此处将大批次分为10个小批次，分线程处理 temp_list = list_of_groups(allrows, 10) # step3 line handel threads = [] for i in ra...

spark sql 的基本用法（python）

weixin_34166472的博客

04-24

405

1、初始化：　　a)声明：　　　　from pyspark import SparkContext, SparkConf 　　　　from pyspark.sql import HiveContext, Row 　　　　from pyspark.sql import SQLContext, Row 　　　　from pyspark.sql.types import IntegerTy...

PySpark的select fliter agg join

bigdataf的博客

10-28

357

1.初始化 from __future__ import print_function, division from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession,functions as F from pyspark.sql.types import StringType,MapType 2.读取数据 def parse_log_schema(txt): try: fileds=txt.st

Python Spark SQL、DataFrame基本操作

H48662654的博客

02-03

1211

Python Spark SQL、DataFrame基本操作以下所有操作均在Spark2.0版本下通过文件创建DataFrame # 文件内容应是跟Python DataFrame形式一样，不是的话需进行转化 userRDD = sc.textFile(filePath) # 创建sqlContext，入口 sqlContext = SparkSession.builder.getOrCreat() # 定义DataFrames的每一个字段名和数据类型 from pyspark.sql import R

Python+大数据-Spark技术栈(四) SparkSQL

呆呆小哥的秘密基地

11-09

1506

Python+大数据-Spark技术栈(四) SparkSQL

pyspark数据处理之----全量查询select和条件查询filter

traveler-leon的博客

01-11

1万+

在spark中，对数据的查询和数据库是有点对其的，有条件查询也有全量查询头文件导入和测试数据创建具体如何创建原始数据，请看上一篇博客（dataframe的8种创建方法） from pyspark.sql import SparkSession spark = SparkSession.builder.appName('increase delete change select').master('local').getOrCreate() df = spark.createDataFrame([

大数据-玩转数据-Spark-SQL编程基础（python版）

s_unbo的博客

01-09

892

大数据-玩转数据-Spark-SQL编程基础（python版）说明：Spark SQL是Spark用来处理结构化数据的一个模块,它将Spark SQL转换成RDD，然后提交到Spark集群执行，执行速度快，对原有Hadoop生态兼容性好。Spark-SQL所用数据抽象为DataFrame，是一种以RDD为基础的分布式数据集，相当于关系数据库的表。一、创建和保存DataFrame 独立应用编程时候，可以先创建一个SparkSession对象，再进行数据的读取和存储操作。 [root@hadoop1 tem

Hadoop数据仓库工具Hive详解：基于HDFS的SQL式查询

Hive是一个基于Hadoop的数据仓库工具，它允许用户通过类SQL的查询语言——HiveQL（HQL）来对存储在HDFS（Hadoop Distributed File System）上的大量数据进行查询和分析。Hive的目标是将复杂的数据处理任务转换为...