Scala，Spark和IDEA学习笔记

最新推荐文章于 2024-08-07 20:31:19 发布

猫猫玩机器学习

最新推荐文章于 2024-08-07 20:31:19 发布

阅读量593

点赞数

分类专栏： Scala Spark 文章标签： scala spark idea

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_22613769/article/details/118707853

版权

Scala 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

目录

distinct和dropDuplicates的区别联系
IDEA下载Git项目
解决A master URL must be set in your configuration错误
IntelliJ IDEA（2019版本）设置控制台里不显示INFO信息
Scala集合：Map、Set、List
scala使用Range来填充一个集合
dataframe增加列
将记录中某个值替换成另外一个值
SPARK-SQL内置函数之时间日期类
Scala之Calendar,SimpleDateFormat简单用法
Window.partitionBy
Spark查看变量数据类型和Dataframe每列类型
Scala中 zip或者zipWithIndex的用法
Spark-SQL之DataFrame操作
spark 获取dataframe所有列
Spark中DataFrame的schema讲解
spark dataframe的时间类型和String类型转化
Spark中对Dataframe的union 、unionAll和 unionByName方法说明
spark的union和join操作演示
DataFrame的repartition、partitionBy、coalesce区别
spark编译问题解决 object apache is not a member of package org
IDEA错误：Cannot start compilation: the output path is not specified for module "Test". Specify the out
Spark中 = = 、= = =之间的区别
spark自定义函数之——UDF使用详解及代码示例
Spark之中map与flatMap的区别
MapReduce基本原理及应用
DataFrame的apply()、applymap()、map()方法
spark自定义函数之——UDF使用详解及代码示例
Scala错误: 找不到或无法加载主类
Idea启动项目报错:Command line is too long.
random.nextInt()的用法

distinct和dropDuplicates的区别联系

distinct数据去重
使用distinct：返回当前DataFrame中不重复的Row记录。该方法和接下来的dropDuplicates()方法不传入指定字段时的结果相同。

dropDuplicates：根据指定字段去重
跟distinct方法不同的是，此方法可以根据指定字段去重。

IDEA下载Git项目

参考：https://blog.csdn.net/my_springlove/article/details/80184560

解决A master URL must be set in your configuration错误

参考：https://blog.csdn.net/shenlanzifa/article/details/42679577

IntelliJ IDEA（2019版本）设置控制台里不显示INFO信息

Scala集合：Map、Set、List

scala使用Range来填充一个集合

对于支持range方法的集合你可以直接调用range方法，或者创建一个Range对象然后把它转化为一个目标集合。
参考

dataframe增加列

将记录中某个值替换成另外一个值

df1 = df1.withColumn("columnA", when($"date_1" === 10000, lit(null)).otherwise($"date_1"))

SPARK-SQL内置函数之时间日期类

Scala之Calendar,SimpleDateFormat简单用法

Window.partitionBy

Spark查看变量数据类型和Dataframe每列类型

Scala中 zip或者zipWithIndex的用法

Spark-SQL之DataFrame操作

spark 获取dataframe所有列

dataFrame.schema.fields.map(f =>f.name).toList

Spark中DataFrame的schema讲解

spark dataframe的时间类型和String类型转化

Spark中对Dataframe的union 、unionAll和 unionByName方法说明

spark的union和join操作演示

DataFrame的repartition、partitionBy、coalesce区别

spark编译问题解决 object apache is not a member of package org

解决：

右键工程-open module setting-Libraries-spark-assembly-1.0.0-hadoop1.0.4.jar（添加spark的jar包-保存

IDEA错误：Cannot start compilation: the output path is not specified for module “Test”. Specify the out

Spark中 = = 、= = =之间的区别

spark自定义函数之——UDF使用详解及代码示例

Spark之中map与flatMap的区别

MapReduce基本原理及应用

DataFrame的apply()、applymap()、map()方法

spark自定义函数之——UDF使用详解及代码示例

Scala错误: 找不到或无法加载主类

Idea启动项目报错:Command line is too long.

random.nextInt()的用法

猫猫玩机器学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。