目录
- distinct和dropDuplicates的区别联系
- IDEA下载Git项目
- 解决A master URL must be set in your configuration错误
- IntelliJ IDEA(2019版本) 设置控制台里不显示INFO信息
- Scala集合:Map、Set、List
- scala使用Range来填充一个集合
- dataframe增加列
- 将记录中某个值替换成另外一个值
- SPARK-SQL内置函数之时间日期类
- Scala之Calendar,SimpleDateFormat简单用法
- Window.partitionBy
- Spark查看变量数据类型和Dataframe每列类型
- Scala中 zip或者zipWithIndex的用法
- Spark-SQL之DataFrame操作
- spark 获取dataframe所有列
- Spark中DataFrame的schema讲解
- spark dataframe的时间类型和String类型转化
- Spark中对Dataframe的union 、unionAll和 unionByName方法说明
- spark的union和join操作演示
- DataFrame的repartition、partitionBy、coalesce区别
- spark编译问题解决 object apache is not a member of package org
- IDEA错误:Cannot start compilation: the output path is not specified for module "Test". Specify the out
- Spark中 = = 、= = =之间的区别
- spark自定义函数之——UDF使用详解及代码示例
- Spark之中map与flatMap的区别
- MapReduce基本原理及应用
- DataFrame的apply()、applymap()、map()方法
- spark自定义函数之——UDF使用详解及代码示例
- Scala错误: 找不到或无法加载主类
- Idea启动项目报错:Command line is too long.
- random.nextInt()的用法
distinct和dropDuplicates的区别联系
distinct数据去重
使用distinct:返回当前DataFrame中不重复的Row记录。该方法和接下来的dropDuplicates()方法不传入指定字段时的结果相同。
dropDuplicates:根据指定字段去重
跟distinct方法不同的是,此方法可以根据指定字段去重。
IDEA下载Git项目
参考:https://blog.csdn.net/my_springlove/article/details/80184560
解决A master URL must be set in your configuration错误
参考:https://blog.csdn.net/shenlanzifa/article/details/42679577
IntelliJ IDEA(2019版本) 设置控制台里不显示INFO信息
Scala集合:Map、Set、List
scala使用Range来填充一个集合
对于支持range方法的集合你可以直接调用range方法,或者创建一个Range对象然后把它转化为一个目标集合。
参考
dataframe增加列
将记录中某个值替换成另外一个值
df1 = df1.withColumn("columnA", when($"date_1" === 10000, lit(null)).otherwise($"date_1"))
SPARK-SQL内置函数之时间日期类
Scala之Calendar,SimpleDateFormat简单用法
Window.partitionBy
Spark查看变量数据类型和Dataframe每列类型
Scala中 zip或者zipWithIndex的用法
Spark-SQL之DataFrame操作
spark 获取dataframe所有列
dataFrame.schema.fields.map(f =>f.name).toList
Spark中DataFrame的schema讲解
spark dataframe的时间类型和String类型转化
Spark中对Dataframe的union 、unionAll和 unionByName方法说明
spark的union和join操作演示
DataFrame的repartition、partitionBy、coalesce区别
spark编译问题解决 object apache is not a member of package org
解决:
右键工程-open module setting-Libraries-spark-assembly-1.0.0-hadoop1.0.4.jar(添加spark的jar包-保存