算法学习笔记:ST表

ST表介绍:

ST表用于解决区间最大值或最小值问题,他的速度比线段树快,创建速度:O(nlogn),查询速度O(1)。在对速度要求高的地方可以选择使用ST表维护区间最值。

ST表基本原理是倍增,对一维的区间,需要一个二维数组来进行维护:

f[i][j] 表示为:从第i个元素开始,总共2^j个元素的最值

 例如f[3][2]涵盖的区间如图黄色区间所示:

ST表建表:

基本原理:

ST表建立的原理是:从两个已经确定的小区间推出一个更大的区间。

可以从图中看出:f[1][2] 是由 f[1][1] 和 f[3][1] 中的最值推出的。

f[i][j]的区间长度一定是f[i][j-1]区间的两倍。所以我们可以将f[i][j]划分为两个一样长度的区间,由这两个区间的最值得出f[i][j]区间的最值。

 f[ i ][ j ] 可以划分为 f[ i ][ j-1 ] 和 f[ i + 2^(j-1) ][ j-1 ]

范围确定:

在建表过程中 i 和 j 的范围该如何确定呢?

j的范围:

首先可以知道:当 j 最大的时候 i 一定是1,所以 j\in \left [ 0,\left \lfloor \log_{2} n \right \rfloor \right ]

i的范围:

当 j 确定后,i的范围也就可以确定了:i\in \left [ 1 , n-2^j +1 \right ]

为什么要先确定j呢?

因为我们建表时是从小区间推导到大区间,要先把所有的小区间先构建完再去构建大区间,所以在二重循环中,最外层是j的循环,最内层应该是i的循环,所以我们要先确定j的范围。

代码实现:

//计算以2为底的log值(向下取整)
void LOG(int n){
    log[1] = 0;
    for(int i=2;i<=n;i++)
        log[i] = log[i>>1] + 1;
}

//a[n]是数列,f[n][log[n]]是ST表
void build(){
    for(int j=1;j<=log[n];j++)
        for(int i=1;i<=(n-(1<<j)+1);i++)
            f[i][j] = max(f[i][j-1],f[i+(1<<(j-1))][j-1]);
}

ST表查询:

基本原理:

之前我们知道了ST表的原理,那么查询就很简单了。

ST表中f[i][j] 表示为:从第i个元素开始,总共2^j个元素的最值,所以一次查询大概率是不能完整包含一个任意区间的。

对于一个区间[x,y],我们只查一次ST表,这个结果能涵盖[x,y]中最大的区间长度是:2^{\left \lfloor \log _{2}(y-x+1) \right \rfloor},究其原因是因为我们log[y-x+1]是向下取整得出的结果。

所以我们可以通过两次查表,再对两次查表的结果取最值,就可以得出整段区间的最值。

可以看到如果要表示[1,5]这个区间,我们需要用f[1][2]和f[2][2]才能完整表示。

2^{\left \lfloor \log _{2}(y-x+1) \right \rfloor}一定是大于等于区间长度一半的,所以我们选择两个长度为2^{\left \lfloor \log _{2}(y-x+1) \right \rfloor}的区间就一定能涵盖[x,y]这个区间。既然长度已知,右端点已知,那么我们选择的第二个f[ i ][ log[y-x+1] ]中的 i 也就可以推导出来。

代码实现:

int find(int x,int y){
    int len = log[y-x+1];
    return max(f[x][len],f[y-(1<<len)+1][len])
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Spark SQL是Apache Spark中的一个模块,它提供了一种基于结构化数据的编程接口。Spark SQL可以让用户使用SQL语句来查询数据,也可以让用户使用DataFrame API来进行数据处理和分析。Spark SQL支持多种数据源,包括Hive、JSON、Parquet等。Spark SQL还提供了一些高级功能,如支持用户自定义函数、支持分布式机器学习算法等。Spark SQL的目标是让用户能够方便地使用Spark进行数据处理和分析,同时提供高性能和可扩展性。 ### 回答2: Spark SQL是一个基于Spark平台的关系型数据处理引擎,它支持使用SQL语句和数据框架操作数据,可以轻松处理结构化和半结构化的数据。它可以从多个数据源中读取数据,包括Hive、JSON、Parquet、ORC等。通过Spark SQL,用户可以方便地使用SQL查询语言来分析和处理数据,大大降低了开发和组织数据流的难度。 Spark SQL主要有两种执行模式:SQL查询和DataFrame操作。其中SQL查询基于Hive的SQL语法解析器,支持HiveQL中的大多数语言特性(如UDF、窗口函数等)。在执行计划生成时,Spark SQL采用了Spark的计算引擎,支持各种Spark算子的优化,以便最大程度地提高查询性能。 另一种操作模式是使用DataFrame API,它可以灵活地进行数据转换和处理,并提供了类似于SQL的语法。与SQL查询不同,DataFrame API通过静态检查和编译器优化来避免由SQL查询引起的语法错误和潜在性能问题。 除了这两种基本的操作模式外,Spark SQL还提供了一些高级特性,如嵌套查询、和视图、共享变量等。这些特性扩展了Spark SQL的功能,使得它可以更加灵活地进行数据处理和查询。 Spark SQL是Spark的重要组成部分,它在数据存储和处理方面提供了很多便利。通过最大程度地利用Spark引擎的优势,Spark SQL能够处理海量数据,并将其转换为有用的信息。这使得Spark SQL成为实现数据分析、机器学习和人工智能的重要工具之一。 ### 回答3: Spark SQL是一种基于Spark平台的数据处理引擎,它提供了高度优化的查询引擎和优秀的支持SQL语句的API。它允许用户使用SQL语句查询来处理大规模数据集,同时仍然支持复杂数据类型和计算。Spark SQL支持数据源,包括Parquet,Avro,JSON等一系列结构化的和半结构化的数据源。 Spark SQL在历史上是一个单独的模块,在Spark 2.0之后,它已经成为Spark的核心组件之一,可以直接在Spark核心API中使用,包括作为一个RDD库或DataFrame/DataSet的API。 Spark SQL的优点如下: 1. 它可以向受过传统SQL培训的用户展示更高级别,更强大的API。 2. 它提供数据集和RDD的良好互操作性。Spark SQL可以通过未被优化的RDD/DataSet API访问同一数据。 3. 它支持Spark的执行引擎以加速查询处理。 使用Spark SQL的时候,可以根据需要选择编程语言,如Scala,Java,Python,SQL等。在Spark核心API中,Spark SQL提供了两种API来处理结构化数据: 1. DataFrame API:DataFrame是具有许多操纵数据的功能的分布式数据集,类似于数据库中的。 2. Dataset API:Dataset是Scala和Java API,它是类型安全的,并且提供与RDD API相同的API,但比RDD具有更好的性能和可读性。 Spark SQL是Spark生态系统中重要的组成部分之一。在处理大规模数据时,使用Spark SQL可以方便地利用Spark的强大功能,提高处理效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值