解决value sortByKey is not a member of org.apache.spark.rdd.RDD[Any, org.apache.spark.sql.Row]报错！！

最新推荐文章于 2021-10-23 23:11:50 发布

reedom1991

最新推荐文章于 2021-10-23 23:11:50 发布

阅读量4.8k

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/reedom1991/article/details/89951493

版权

在使用Spark2.3.0处理多行JSON数据时，遇到将DataFrame转为RDD并尝试使用sortByKey排序导致的错误。错误信息为'value sortByKey is not a member of org.apache.spark.rdd.RDD[Any, org.apache.spark.sql.Row]'。问题在于key不能为Any类型。解决方案是创建自定义类作为key，并将DataFrame转换为此自定义类的RDD，然后使用sortByKey。参考了https://codeday.me/bug/20181209/445475.html和https://blog.csdn.net/hongxingabc/article/details/81638011的教程，成功解决了问题。记录下来备查。" 137131718,11588906,YOLOv9性能提升：LRM loss与困难样本挖掘,"['YOLO', '目标检测', '深度学习', '网络', '损失函数']

摘要由CSDN通过智能技术生成

所用的软件版本：

spark2.3.0

hbase1.4.6

IDEA2019.1

输入数据源是多行的json格式的数据，利用如下代码进行处理：

val session = SparkSession.builder().getOrCreate()
import session.implicits._
val DF = session.read.json("e:/test.json")
val res = DF.rdd.map(x => (x(11), x)).map(x => (x._2, x._1))
res.sortByKey(false)

DF是sql.DataFrame类型，DF.rdd直接转换成RDD[row]类型，然后直接利用val res = DF.rdd.map(x => (x(11), x)).map(x => (x._2, x._1))，转换成Tuple2(key, value)格式，利用sortByKey进行排序，但是却弹出报错"value sortByKey is not a member of org.apache.spark.rdd.RDD[Any, org.apache.spark.sql.Row]"，照着提示说明，key不能是Any类型，因此需要自定义一个key进行解决。