Spark算子
你锋哥真的强
这个作者很懒,什么都没留下…
展开
-
Spark算子之mapPartitions
import java.util.ArrayList;import java.util.Arrays;import java.util.HashMap;import java.util.Iterator;import java.util.List;import java.util.Map;import org.apache.spark.SparkConf;import org.apache.spa...原创 2018-03-05 08:49:14 · 868 阅读 · 0 评论 -
spark overwrite分区覆盖导致全表覆盖问题
比如我们目前有两个分区 2019-03-22 和 2019-03-23 两个分区,现在我们使用 saveAsTable 想覆盖其中一天的分区,结果却是将整个所有分区遮盖了。重建了整个目录,这明显不是我们想要的到的结果。 试过下图还是不行 set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=no...原创 2019-06-26 14:20:49 · 7098 阅读 · 2 评论 -
spark scala dataframe 保留2位小数
df = df.selectExpr("round(money,2) as money" ,"created_ts","updated_ts"); df = df.selectExpr("cast(money as decimal(20,2)) as money" ,"created_ts","updated_ts");原创 2019-06-24 11:04:24 · 7593 阅读 · 0 评论 -
spark首次写入Hive orc表报错
The format of the existing table project_bsc_dhr.bloc_views isHiveFileFormat. It doesn't match the specified formatOrcFileFormat.; new_df.write.mode(SaveMode.Append).format("orc").partitionBy("nd"...原创 2019-06-24 11:23:06 · 1846 阅读 · 0 评论