大数据
文章平均质量分 84
HanJuly9569
热衷于探索世界的程序猿一枚…
展开
-
SQL总结-排名的使用
排名的使用SQL原创 2023-03-10 13:55:12 · 545 阅读 · 0 评论 -
Spark ALS 协同过滤算法实践
个人总结,有误请指出ALS算法bibili上硅谷课程理论协同过滤算法上图中横坐标代表用户,纵坐标代表商品,每一个格子,代表第I个用户的对第I个商品的评分。这个矩阵是一个稀疏矩阵,而这些没有值得位置正是我们要推测的值。每个格子的的评分大体上可以看做一个独立事件,是很难准确的通过其他独立事件去推测的。因为它的可能实在太多了。所以综上我们提出两个问题:由于它每一个格子的可能性太多,那我们可以简单的理解为求解一个推测值的复杂度是很高的,为m*n,m,n分别为矩阵的横纵长度。由于每个用户对每个商.原创 2021-04-25 01:52:33 · 690 阅读 · 0 评论 -
Hbase扫描HFile原理
HFile文件结构首先要了解下它,才能知道它是怎么查找的。如上图:HFile分为四部分(针对HFile v2)Trailer 我理解它就是一个类似于文件头的东西,存储一些HFile的基本信息,比如版本号,各个块的偏移量Load-on-open section 启动时会将它存入内存,保存一些一级索引的数据No-Scanned block section 理解它为二级索引即可scanned block section 理解它为三级索引加数据即可构建索引根据上图中的root data i原创 2021-03-14 18:29:51 · 207 阅读 · 0 评论