spark
Effpom
这个作者很懒,什么都没留下…
展开
-
Spark2.0SQL语句执行过程
simba.sql("Select * from b") 调用SparkSession.scala的sql()方法: def sql(sqlText: String): DataFrame = { Dataset.ofRows(self, sessionState.sqlParser.parsePlan(sqlText)) } Dataset.ofRows()方法:原创 2017-04-25 11:34:26 · 1076 阅读 · 0 评论 -
spark rdd Mkdirs failed to create file?
rdd.saveAsTextFile("/pruned") 出错原因在/这 改成 rdd.saveAsTextFile("pruned")就可以了。spark对/的解析是下层目录,所以创建不了pruned。原创 2017-07-09 10:25:03 · 2885 阅读 · 0 评论 -
spark一个奇怪的bug
见下面代码:val right_rdd=rightplan.execute() val right_result=right_rdd.collect()rightplan是一个SparkPlan,若直接collect取数据,则取到的数据集是每个分区内部的最后一条数据*分区内的总记录个数: 但是单独取InternalRow行内的数据的话,是可以取到的,真实数据集是: collec原创 2017-12-04 16:19:07 · 302 阅读 · 0 评论