Scala,Spark和IDEA学习笔记

distinct和dropDuplicates的区别联系

distinct数据去重
使用distinct:返回当前DataFrame中不重复的Row记录。该方法和接下来的dropDuplicates()方法不传入指定字段时的结果相同。

dropDuplicates:根据指定字段去重
跟distinct方法不同的是,此方法可以根据指定字段去重。

IDEA下载Git项目

参考:https://blog.csdn.net/my_springlove/article/details/80184560

解决A master URL must be set in your configuration错误

参考:https://blog.csdn.net/shenlanzifa/article/details/42679577

IntelliJ IDEA(2019版本) 设置控制台里不显示INFO信息

参考

Scala集合:Map、Set、List

参考

scala使用Range来填充一个集合

对于支持range方法的集合你可以直接调用range方法,或者创建一个Range对象然后把它转化为一个目标集合。
参考

dataframe增加列

参考

将记录中某个值替换成另外一个值

df1 = df1.withColumn("columnA", when($"date_1" === 10000, lit(null)).otherwise($"date_1"))

SPARK-SQL内置函数之时间日期类

参考

Scala之Calendar,SimpleDateFormat简单用法

参考

Window.partitionBy

参考

Spark查看变量数据类型和Dataframe每列类型

参考

Scala中 zip或者zipWithIndex的用法

参考

Spark-SQL之DataFrame操作

参考

spark 获取dataframe所有列

dataFrame.schema.fields.map(f =>f.name).toList

Spark中DataFrame的schema讲解

参考

spark dataframe的时间类型和String类型转化

参考

Spark中对Dataframe的union 、unionAll和 unionByName方法说明

参考

spark的union和join操作演示

参考

DataFrame的repartition、partitionBy、coalesce区别

参考

spark编译问题解决 object apache is not a member of package org

解决:

右键工程-open module setting-Libraries-spark-assembly-1.0.0-hadoop1.0.4.jar(添加spark的jar包-保存

IDEA错误:Cannot start compilation: the output path is not specified for module “Test”. Specify the out

参考

Spark中 = = 、= = =之间的区别

参考

spark自定义函数之——UDF使用详解及代码示例

参考

Spark之中map与flatMap的区别

参考

MapReduce基本原理及应用

参考

DataFrame的apply()、applymap()、map()方法

参考

spark自定义函数之——UDF使用详解及代码示例

参考

Scala错误: 找不到或无法加载主类

参考

Idea启动项目报错:Command line is too long.

参考

random.nextInt()的用法

参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值