Spark orderBy(desc("col"))部分数据排序失败

起因

对数据进行三个维度的排序,用的是orderBy(desc("col")),结果其中两个维度上结果返回正确,另外一个维度上结果出现了大的排在后面的结果,错误的结果大概如下:

wang:2.072661
zhe:19.702593
rong:1.778491

正确维度上如下:

wang:17.069210
zhe:1.936609
rong:1.926417
yao:1.886525
排查
  1. 以为是数据取错了,又重复的手工操作了一遍,发现数据还是这样,想应该不是数据的问题
  2. 又在怀疑是不是碰到了bug,但是这么多人用,这么简单的函数,怎么会有bug呢,又试了一下sort($"col".desc),发现结果还是这样
  3. 只能回头去看这个数的计算方式,用的是udf函数,如下
def getRate(end_rate: Double, start_rate: Double): String = {
      ((end_rate - start_rate) / start_rate).formatted("%.6f")
    }
    val rateUDF = udf( (end_rate: Double, start_rate: Double) => {getRate(end_rate, start_rate)} )

恍然大悟,开始写的时候,返回的是一个Double类型,但是由于要formatted,结果返回的是String,我就把返回类型写成了String,程序可以跑起来了,我就忽略了这个事情,结果就发生了错误。

也就是说,这些看上去虽然是数字,但是实际上是字符串,此时排序也是按照字符串排序了,正确的维度上,首字符都是1,也只有1位,因此就说正确的排序;但是错误的维度上,19那个虽然是两位数,但是首字符是1,因此排到了后面。只需要讲udf函数改成返回Double,然后排序后再进行format就可以了。

Done!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark SQLorderBy操作用于按照指定的列对数据进行排序orderBy默认是升序排序,如果需要降序排序,则需要使用desc()函数。 示例代码: ```python from pyspark.sql.functions import desc # 读取数据 df = spark.read.format("csv").load("path/to/file.csv", header=True) # 按照列名进行升序排序 df.orderBy("column_name").show() # 按照列名进行降序排序 df.orderBy(desc("column_name")).show() # 按照多个列进行排序,先按照列1排序,再按照列2排序 df.orderBy("column1", "column2").show() ``` 注意:orderBy操作是一个宽依赖操作,会导致数据的全局重排,因此在处理大规模数据时需要注意性能问题。 ### 回答2: SparkSQLorderBy函数用于对结果进行排序orderBy函数接收一个或多个列作为参数,并且可以指定排序的方式,如升序或降序。 使用orderBy函数的一般格式如下: ``` df.orderBy(col("column1").asc(), col("column2").desc()) ``` 在上面的示例orderBy函数按照column1列进行升序排序,并按照column2列进行降序排序orderBy函数可以直接对列进行排序,也可以对列的别名进行排序。例如,可以对一个计算列进行排序,如下所示: ``` df.withColumn("calculated", col("column1") + col("column2")).orderBy(col("calculated").asc()) ``` 在这个示例,首先创建了一个名为calculated的计算列,该列为column1和column2列之和,并且将结果按照calculated列进行升序排序orderBy函数还可以接收多个列的排序条件,并且支持链式调用。例如: ``` df.orderBy(col("column1").asc()).orderBy(col("column2").desc()) ``` 在这个示例,首先按照column1列进行升序排序,然后再按照column2列进行降序排序。 需要注意的是,orderBy函数返回一个新的DataFrame,原始的DataFrame不会发生改变。因此,如果需要对排序结果进行后续操作,需要将排序后的结果保存到一个变量。 在使用orderBy函数时,还可以进行一些其他的操作,如对列进行表达式计算、使用函数等,以满足不同的需求。 总结来说,orderBy函数用于对SparkSQL的DataFrame进行排序,可以按照一个或多个列进行排序,支持升序或降序排序,并且可以进行一些其他操作,如计算列、使用函数等。 ### 回答3: Spark SQLorderBy是用于对结果进行排序的函数。orderBy可以根据给定的列对结果进行升序或降序排序orderBy函数的使用方法如下: 1. 单个列排序orderBy("column"):按照指定的列对结果进行升序排序,默认为升序。 orderBy($"column".desc):按照指定的列对结果进行降序排序。 2. 多个列排序orderBy("column1", "column2"):首先按照column1排序,如果有相同的值,则再按照column2排序orderBy($"column1".desc, $"column2"):首先按照column1进行降序排序,如果有相同的值,则按照column2排序。 例如,假设有一个包含姓名和年龄的表,我们可以使用orderBy函数对结果按照姓名进行升序排序,或者按照年龄进行降序排序。 示例代码如下: 1. 单个列排序: df.orderBy("name"):按照姓名升序排序。 df.orderBy($"name".desc):按照姓名降序排序。 2. 多个列排序: df.orderBy("name", "age"):首先按照姓名排序,如果有相同的姓名,则按照年龄排序。 df.orderBy($"name".desc, $"age"):首先按照姓名降序排序,如果有相同姓名,则按照年龄排序。 总结: orderBy函数用于对Spark SQL查询结果进行排序,可以按照单个列或多个列进行排序,并且可以指定升序或降序排序
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值