Scala
猫猫玩机器学习
这个作者很懒,什么都没留下…
展开
-
Scala:dataset,dataframe空值判断和处理
import org.apache.spark.sql.SparkSessionimport org.apache.spark.sql.Datasetimport org.apache.spark.sql.Rowimport org.apache.spark.sql.DataFrameimport org.apache.spark.sql.Columnimport org.apache.spark.sql.DataFrameReaderimport org.apache.spark.rdd.RD原创 2022-03-23 17:05:44 · 1297 阅读 · 0 评论 -
python和spark日期前n天的写法
python:day = timedelta(1, 0)end_date = pd.to_datetime(test_start_date)spark:val myc: Calendar = Calendar.getInstance()val dateformat = new SimpleDateFormat("yyyy-MM-dd")val dt = dateformat.parse(end_date)myc.setTime(dt)var end_date_1 = dateformat.原创 2021-10-11 18:38:30 · 305 阅读 · 0 评论 -
Spark计算两条记录的差diff
var df = spark.sparkContext.parallelize(Array((1, "2014-11-03 10:45:58.0", 1), (2, "2014-10-17 18:25:58.0",2), (1, "2014-10-25 19:17:59.0",3), (2, "2014-10-29 10:19:58.0",2), (1, "2014-11-17 18:25:58.0",4), (2, "2014-08原创 2021-10-11 18:37:28 · 947 阅读 · 0 评论 -
Spark DataFrame 添加自增id
方法一:利用窗口函数 /** * 设置窗口函数的分区以及排序,因为是全局排序而不是分组排序,所有分区依据为空 * 排序规则没有特殊要求也可以随意填写 */ val spec = Window.partitionBy().orderBy($"lon") val df1 = dataframe.withColumn("id", row_number().over(spec)) df1.show()方法二: 利用RDD的 zipWit原创 2021-08-03 11:31:18 · 566 阅读 · 0 评论 -
Spark:计算时间差(天数和秒数)
//天数时间差table.select(datediff(table.col("Start Time"), table.col("End Time"))).show()//描述时间差import org.apache.spark.sql.functions._//For $notation columns // Spark 2.0import spark.implicits._table.withColumn("date_diff", (unix_timestamp($"Start原创 2021-08-03 10:21:39 · 6170 阅读 · 0 评论 -
Scala,Spark和IDEA学习笔记
目录1.distinct和dropDuplicates的区别联系2.IDEA下载Git项目3.解决A master URL must be set in your configuration错误4.IntelliJ IDEA(2019版本) 设置控制台里不显示INFO信息5.Scala集合:Map、Set、List6.scala使用Range来填充一个集合7.dataframe增加列8.SPARK-SQL内置函数之时间日期类9.Window.partitionBy1.distinct和dropDuplic原创 2021-07-13 19:20:04 · 594 阅读 · 0 评论