spark-sql
ZhaoYingChao88
学而不思则罔,思而不学则殆!
展开
-
spark Structured Streaming checkpoint参数优化
内容可能持续性修改完善,最新专栏内容与同步,源码与同步。原创 2023-07-13 11:44:16 · 400 阅读 · 0 评论 -
spark-sql显示表头header
【代码】spark-sql显示表头header。原创 2023-06-08 11:45:46 · 469 阅读 · 0 评论 -
spark-sql ORC Caused by: org.apache.hadoop.fs.FileAlreadyExistsException: File already exists
试图在重新分区后将数据帧写入s3位置。但是每当write stage失败并Spark重试该stage时,它抛出FileAlreadyExistsException。在当重新提交工作时,如果spark在一次尝试中就完成了这一阶段,它会很好地工作。主要是Spark应该在重试之前从失败的阶段删除文件。如果我们将retry设置为0,这个问题就会解决,但是spark阶段预计会失败,这不是一个合适的解决方案。Spark配置中设置--conf。有关此配置的更多详细信息-原创 2023-06-08 09:52:04 · 397 阅读 · 0 评论 -
spark-sql 支持中文
spark-sql原创 2022-11-22 18:33:15 · 2011 阅读 · 0 评论 -
SQL排序之 row_number, rank(), dense_rank()区别
三者的区别如下:rank()排序相同时会重复,总数不变,即会出现1、1、3这样的排序结果; dense_rank()排序相同时会重复,总数会减少,即会出现1、1、2这样的排序结果; row_number()排序相同时不会重复,会根据顺序排序。具体实例建表、插入数据create table rownumber( id varchar(10) not null, name varchar(10) null, age varchar(10) null,原创 2021-08-11 19:42:26 · 10743 阅读 · 1 评论 -
spark-sql调优
sparksql性能调优性能优化参数 代码实例import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.api.java.JavaSQLContext原创 2017-10-21 19:45:41 · 4080 阅读 · 0 评论 -
spark SQL上踩过的坑
那些年我们在spark SQL上踩过的坑1.高并发情况下的内存泄露的具体表现很遗憾,spark的设计架构并不是为了高并发请求而设计的,我们尝试在网络条件不好的集群下,进行100并发的查询,在压测3天后发现了内存泄露。a)在进行大量小SQL的压测过程中发现,有大量的activejob在spark ui上一直处于pending状态,且永远不结束,如下图所示转载 2017-10-21 19:58:25 · 1065 阅读 · 0 评论 -
Spark Sql性能测试
Spark Sql性能测试及调优目录(?)[+]内存不足时group by操作失败。正常应该速度变慢,而不是失败,因为还有磁盘可用错误日志:Task:java.io.IOException: Filesystem closed atorg.apache.hadoop.hdfs.DFSClient.check原创 2017-10-21 19:38:37 · 1010 阅读 · 0 评论 -
Spark-SQL编程总结
概览Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQL进行交互,无论使用何种方式,SparkSQL使用统一的执行引擎记性处理。用户可以根据自己喜好,在不同API中选择合适的进原创 2017-03-23 12:59:39 · 3714 阅读 · 1 评论 -
Spark源码走读之 -- sql的解析与执行
一般来说任意一个sql子系统都需要有parser,optimizer,execution三大功能模块,在spark中这些又都是如何实现的呢,这些实现又有哪些亮点和问题?带着这些疑问,本文准备做一些比较深入的分析。SQL模块分析有几大难点,分别为sql分析和执行的通用过程,这个与是否用spark无关,应该是非常general的问题spark sql中具体实现时的整体架构源码阅读时碰到原创 2017-03-23 11:47:46 · 696 阅读 · 0 评论 -
SparkSQL相关语法总结
1.in 不支持子查询 eg. select * from src where key in(select key from test);支持查询个数 eg. select * from src where key in(1,2,3,4,5);in 40000个 耗时25.766秒in 80000个 耗时78.827秒2.union all/union不支持顶层的union原创 2017-03-23 11:23:23 · 5466 阅读 · 1 评论