![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 69
MachineCYL
这个作者很懒,什么都没留下…
展开
-
【pyspark】DataFrame基础操作(二)
介绍一下 pyspark 的 DataFrame 基础操作。原创 2022-07-18 10:49:13 · 1280 阅读 · 0 评论 -
【pyspark】DataFrame基础操作(一)
介绍一下 pyspark 的 DataFrame 基础操作。原创 2022-07-14 15:33:11 · 3166 阅读 · 0 评论 -
【推荐算法】协同过滤算法代码(pyspark | ALS)
【推荐算法】协同过滤算法代码。基于pyspark ALS 的代码实现原创 2022-07-12 17:17:05 · 7637 阅读 · 1 评论 -
【Hive】计算相邻两行时间戳的间隔(lag、lead)
业务需要,需要计算同一个用户,通过同一个访问渠道,每次访问的时间间隔。主要要用到的lag和lead分析函数。这边借这个例子,详细展开来讲一下。原创 2022-07-05 10:29:09 · 2375 阅读 · 0 评论 -
【Spark】Task、Partition、RDD等概念的理解
有部分图和语句摘抄别的博客,有些理解是自己的补充的。梳理一下Spark中Task,Partition,RDD、Node数、Executor数、core数目的关系和Application,Driver,Job,Task,Stage理解转载 2022-07-04 16:05:39 · 835 阅读 · 0 评论 -
【大数据】分布式机器学习平台
【大数据】分布式机器学习平台原创 2022-07-04 15:10:24 · 488 阅读 · 0 评论 -
【大数据】常用大数据工具介绍
【大数据】常用大数据工具介绍原创 2022-07-01 16:51:35 · 1831 阅读 · 0 评论