![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 75
uixjhn
这个作者很懒,什么都没留下…
展开
-
SparkSql(2)
7.分区,分桶,排序分区是按某个字段以目录级别划分分桶是按某个字段以文件级别划分排序是按照某个字段在文件内部(每个桶)有序注意:如果使用分桶和排序,必须使用持久化表如果数据的数量较小,有的达不到设置的分桶数def bps(spark:SparkSession)={ import spark.implicits._ val bpsDF=spark.read.load("D://work/path") bpsDF.write .partition原创 2021-09-22 21:26:37 · 322 阅读 · 0 评论 -
SparkSQL(1)
sparkSQLspark中处理结构化数据的组件计算过程是DataSet和DataFrame之间的转换DS/DF可以创建出来,也可以由其他DS/DF转换而来DS:数据的集合DF:在DS基础上条件了 schema使用1.创建一个SparkSession val spark:SparkSession = SparkSession.builder() .master() .appName() .getOr原创 2021-09-16 14:33:11 · 190 阅读 · 0 评论