![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
sql boy
程序界毒瘤
展开
-
Spark 机器学习之Kmeans算法实践
数据格式说明 id为出租车司机id,tid,lat为经纬度,time是时间(HHmmss) 目标 通过Kmean探索不同地区接客最多的时间 实践代码 import org.apache.spark.ml.clustering.KMeans import org.apache.spark.ml.feature.VectorAssembler import org.apache.spark.ml.linalg import org.apache.spark.rdd.RDD import org.apache.s原创 2021-05-21 17:01:19 · 670 阅读 · 0 评论 -
Spark数据清洗案例
读完本篇你将收获 如何利用spark读取csv文件,并设置灵活的参数 spark dataframe和rdd的转换 spark 如何写到mysql内 熟悉java正则 熟悉日期类 spark 常见算子 查看原数据格式(51job上的数据) job_id,job_name,job_price,job_url,job_time,job_place,job_edu,job_exp,job_well,company_name,company_type,company_mag,company_genre 1311原创 2021-04-20 21:24:47 · 5620 阅读 · 4 评论 -
scala编写spark wordcount流程
scala编写spark wordcount完整流程下载scala( [官网链接](https://www.scala-lang.org/download/2.12.12.html))IDEA安装scala插件(社区版)配置Scala SDK位置编写spark wordcount(需对scala语法有一定的了解) 下载scala( 官网链接) 滑到底部选择所需版本(我这里选的是2.12-window) IDEA安装scala插件(社区版) 配置Scala SDK位置 安装scala插件后可以new一个m原创 2020-09-02 12:33:36 · 541 阅读 · 0 评论