大数据
文章平均质量分 63
fengkuang
这个作者很懒,什么都没留下…
展开
-
推荐算法面试集锦--架构工程
现今,推荐系统主要分为召回和排序两个阶段,很多人可能是认为是基于算力性能的问题,然而真的只是这个原因吗?……原创 2022-03-18 16:33:31 · 2276 阅读 · 0 评论 -
推荐算法面试集锦--算法模型
推荐算法面试题集锦--算法模型原创 2022-03-14 12:44:01 · 3561 阅读 · 0 评论 -
深入理解spark优化器
目前的优化方法主要有:Gradient Descent 梯度下降Stochastic Gradient Descent 随机梯度下降Limited-memory BFGS -原创 2020-01-18 17:17:58 · 518 阅读 · 0 评论 -
Hive性能比较之in的使用和join的使用
问题:已知老用户表B,求解浏览表A里有多少用户是老用户?说明: A表有130万不重复浏览用户,B表也是百万级。方法一:select count(*) from (select pin from A group by pin) a join (select pin from B group by pin) b 出现了数据倾斜,卡在一个reducer一直跑不出来。方...原创 2018-05-07 01:27:51 · 6883 阅读 · 3 评论 -
深入理解Spark ALS--源码解读与接口优化
源码见ALS.scala和MatrixFactorizationModel.scala调用方法import org.apache.spark.mllib.recommendation.{ALS, Rating}import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.storage.StorageL...原创 2018-08-07 21:03:07 · 1299 阅读 · 0 评论