DataFrame
文章平均质量分 83
董可伦
博主曾获2014年全国数学建模竞赛国家一等奖;有八年大数据经验,大数据领域专家、CSDN博客专家。Apache Hudi Active Contributor,喜欢开源,擅长并乐于分享Flink、Hudi、Spark等大数据领域的技术
展开
-
Spark DataFrame按某列降序排序
本文总结如何将DataFrame按某列降序排序,因为Spark默认的排序方式为升序,而降序的用法和java语言等又不一样,所以需要特地总结记录一下其用法。2、默认的升序排序效果(按col2排序,以下都是)3、降序方法一这个方法在前面加上负号-即可,看起来挺简单的,但是其实这种方法不能在第一次构建df的时候进行排序,必须先创建...原创 2018-07-08 19:56:00 · 38685 阅读 · 2 评论 -
Spark 创建RDD、DataFrame各种情况的默认分区数
我的原创地址:https://dongkelun.com/2018/08/13/sparkDefaultPartitionNums/前言熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaultParallelism、sc.defaultMinPartitions以及HDFS文件的Block数......原创 2018-08-14 10:55:37 · 19279 阅读 · 12 评论 -
Spark UDF使用详解及代码示例
本文介绍如何在Spark Sql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1.x)和新版(Spark2.x)完整的代码示例。下面以Spark2.x为例给出代码,关于Spark1.x创建DataFrame可在最后的完整代码里查看。2、Spark Sql用法...原创 2018-08-03 09:17:53 · 32442 阅读 · 14 评论 -
Spark创建空的DataFrame
我的原创地址:https://dongkelun.com/2018/08/14/sparkEmptyDataFrame/前言本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为自己在开发过程中有这个需求,之前并不知道怎么创建,就查了一下,发现资料并不多,不知道因为太简单还是用的人少~......原创 2018-08-16 20:05:19 · 16502 阅读 · 1 评论 -
Spark通过修改DataFrame的schema给表字段添加注释
我的原创地址:https://dongkelun.com/2018/08/20/sparkDfAddComments/1、需求背景通过Spark将关系型数据库(以Oracle为例)的表同步的Hive表,要求用Spark建表,有字段注释的也要加上注释。Spark建表,有两种方法: * 用Spark Sql,在程序里组建表语句,然后用Spark.sql(“建表语句”)建表,这种方法麻烦的地方......原创 2018-09-03 13:41:58 · 7949 阅读 · 0 评论