Massive Data Algorithms
文章平均质量分 90
nine_mink
这个作者很懒,什么都没留下…
展开
-
Recommender System复习(考试向)
对于基于邻域的机器学习算法来说,如果要给一个用户推荐商品,那么有两种方式。一种是基于物品的,另一种是基于用户的。基于物品的是,从该用户之前的购买商品中,推荐给他相似的商品。基于用户的是,找出于该用户相似的用户,然后推荐给他相似用户购买的商品。但是,推荐系统除了这两种之外,还有其他的方式。例如如果知道该用户的兴趣分类,可以给他推荐该类别的商品。为了实现这一功能,我们需要根据用户的行为数据得到用户对于不同分类的兴趣,以及不同商品的类别归属。原创 2023-11-03 16:54:22 · 169 阅读 · 0 评论 -
Graph 部分复习(考试向)
在没有Dead Ends的情况下,每次迭代后向量v各项的和始终保持为1,而有了Dead Ends,迭代结果将最终归零处理Dead Ends的方法如下:迭代拿掉图中的Dead Ends节点及Dead Ends节点相关的边(之所以迭代拿掉是因为当目前的Dead Ends被拿掉后,可能会出现一批新的Dead Ends),直到图中没有Dead Ends。由于下面的算法,没有页面的PageRank会是0。PageRank计算得出的结果是网页的重要性评价,这和用户输入的查询是没有任何关系的,即算法是主题无关的。原创 2023-11-03 13:08:12 · 445 阅读 · 0 评论 -
Data Stream 复习(考试向)
因为每个球的放置是相互独立的,所以多个球都不被放入这个箱子的概率就是这些独立事件的乘积。所以,一个箱子没有球的概率是 (1 - 1/n)^m,其中 m 是球的数量,n 是箱子的数量。对于第二个球,同样地,每个箱子都有 1/n 的概率收到第二个球,因为球被放入箱子的概率是相同的,而且与之前球放在哪个箱子无关。因此,每个球被放入一个箱子的概率都是 1/n,而且这些概率是相互独立的,因为一个球的放置不受另一个球的放置影响。对于第三个球,同样地,每个箱子都有 1/n 的概率收到第三个球,以此类推。原创 2023-10-31 17:09:13 · 169 阅读 · 0 评论 -
LSH 复习(考试向)
但是,虽然我们降低了特征复杂度,如果用户非常多的话,我们的计算量依然是非常大的(O(n**2)),如果我们能先粗略地将用户分桶,将可能相似的用户以较大概率分到同一个桶内,这样每一个用户的“备选相似用户集”就会相对较小,降低寻找其相似用户的计算复杂度,LSH就是这样一个近似算法。比如,对于红色的第一列随机行号S1来说,D1的一列中D1[n] == 1所对应的行号的集合为{4,2,6,3,5},其中最小的是2,所以D1在S1上的MinHash Value是2,以此类推。原创 2023-10-31 10:37:34 · 102 阅读 · 0 评论