Spark机器学习：同现相似度矩阵

最新推荐文章于 2024-06-07 11:25:36 发布

Javis486

最新推荐文章于 2024-06-07 11:25:36 发布

阅读量9.6k

点赞数 2

分类专栏： Spark

本文链接：https://blog.csdn.net/jiangpeng59/article/details/52918839

版权

同现相似度可用于为协调过滤推荐中，查找相似的物品或者用户。下面对同相似度进行简单的定义

物品i和物品j的同相似度公式定义：

其中，分母是喜欢物品i的用户数，而分子则是同时喜欢物品i和物品j的用户数。因此，上述公式可用理解为喜欢物品i的用户有多少比例的用户也喜欢j (和关联规则类似)

但上述的公式存在一个问题，如果物品j是热门物品，有很多人都喜欢，则会导致Wij很大，接近于1。因此会造成任何物品都和热门物品交有很大的相似度。为此我们用如下公式进行修正：

这个格式惩罚了物品j的权重，因此减轻了热门物品和很多物品相似的可能性。(也归一化了[i,j]和[j,i])

下面具体介绍如何在Spark如何求得矩阵Wij

如下是用来测试的数据，格式：(用户ID，商品ID，评分)

为了清楚了解每一步过程，下面的代码都在spark-shell中进行并给出关键步骤的输出结果

1.从本地文件中读取数据，并进行格式装换

 val rdd1 = sc.textFile("/tmp/recommend.dat").map(_.split("\\s")).map(x => (x(0), x(1), x(2).toDouble))

结果：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Javis486

关注关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark MLlib机器学习库原理与代码实例讲解

程序员光剑

06-07

467

Spark MLlib机器学习库原理与代码实例讲解 1.背景介绍 1.1 大数据时代的机器学习需求在当今大数据时代,海量数据的产生和积累为机器学习的发展提供了前所未有的机遇。传统的机器学习算法和框架在处理大规模数

Spark MLlib机器学习库：常用算法及其实战应用

liqinkuaia的博客

01-08

623

MLlib支持多种常见的机器学习任务，如分类、回归、聚类、协同过滤等，并且具有高效、可扩展和易用的特点。首先，需要收集一批已标记为垃圾邮件或非垃圾邮件的邮件样本，提取邮件中的特征（如发件人、邮件正文中的关键词等），然后使用逻辑回归算法训练模型。我们可以使用MLlib中的K-means算法对客户数据进行聚类分析，提取客户的特征（如购买历史、消费习惯等），并根据聚类结果制定相应的营销策略。聚类算法用于将数据集划分为多个不同的簇，使得同一簇内的数据相似度较高，不同簇之间的数据相似度较低。

3 条评论您还未登录，请先登录后发表或查看评论

基于spark的文本相似性匹配

weixin_43250857的博客

07-21

2478

基于spark的文本相似度匹配查找原文本文件是txt格式的多文本，数量大约一万五千个，项目需求是对这些文本进行相似度的匹配，找出那些文本之间内容是相似的。文本内容类似如下：项目环境 linux环境 hadoop2.7.1 spark2.4.5 项目思路数据预处理把一万多个文本数据合并为一个合理的创建标题，有助于目录的生成直接输入1次#，并按下space后，将生成1级标题。输入2次#，并按下space后，将生成2级标题。以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

使用spark计算文档相似度

weixin_34405354的博客

12-17

2478

为什么80%的码农都做不了架构师？>>> ...

关于n对角矩阵数据结构_机器学习 | SVD矩阵分解算法，对矩阵做拆分，然后呢？...

weixin_39621794的博客

12-08

249

今天是机器学习专题第28篇文章，我们来聊聊SVD算法。SVD的英文全称是Singular Value Decomposition，翻译过来是奇异值分解。这其实是一种线性代数算法，用来对矩阵进行拆分。拆分之后可以提取出关键信息，从而降低原数据的规模。因此广泛利用在各个领域当中，例如信号处理、金融领域、统计领域。在机器学习当中也有很多领域用到了这个算法，比如推荐系统、搜索引擎以及数据压缩等等。SVD简...

Spark 相似度算法

知识的力量

02-16

4312

package com.sdcet import org.apache.spark.{SparkConf, SparkContext} /** * Created by Administrator on 2017/2/16. */ object TestColl { System.setProperty("hadoop.home.dir", "E:\\winutils-hadoop-

机器学习——自相似矩阵（Self-Similarity Matrix，SSM）

qq_40894813的博客

05-31

2972

研究音乐结构及其相互关系的一般思路是将音乐信号转换为合适的特征序列，然后将特征序列中的每个元素与序列中的所有其他元素进行比较。这就产生了一种自相似矩阵(SSM)，它不仅对音乐结构分析具有重要意义，而且对多种时间序列的分析也具有重要意义。目录基本定义块和路径结构基于色谱图特征的SSMSSM Based on MFCC FeaturesSSM Based on Tempogram Features路径和块的形式化定义音乐结构分析的总体程序进一步说明基本定义设F为特征空间，s:F×F→Rs:F×F→Rs:F

深入探索Spark MLlib：大数据时代的机器学习利器

热门推荐

微电子学与固体电子学-俞驰

05-12

1万+

用户\物品 A B C D E 101 1 1 0 0 1 102 0 1 0 1 0 103 1 1 1 1 1 104 1 1 0 1 0 105 1 1 0 0 1 106 0 ...

相似度计算

qq_26645205的博客

11-14

737

关于相似度计算，现有的几种基本方法都是基于向量的，其实也就是计算两个向量的距离，距离越近相似度越大。在推荐的场景中，在用户-物品偏好的二维矩阵中，我们可以将一个用户对所有物品的偏好作为一个向量来计算用户之间的相似度，或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度。同现相似度 物品i和物品j的同现相似度公式定义：其中，分母是喜欢物品i的用户数，而分子是同时喜欢物品i和物品

[spark]计算商品相似度

woniu201411的博客

07-12

8826

一、商品相似度定义基于物品的协同过滤算法是业界应用最多的算法，它的思想是给用户推荐那些和他们喜欢的物品相似的物品，主要分为两个步骤：一，计算物品之间的相似度；二，根据物品相似度和用户的历史行为给用户生成推荐列表。物品i和物品j的相似度可定义为：其中，分母是喜欢物品i的用户数，分子是同时喜欢物品i和物品j的用户数。在电商网站中，用户前后的消费行为有很强的关联性，如上图所示，两个用户...

【Spark】计算两个文件中每一行的相似度，并返回top10

凝眸伏笔的博客

06-09

2040

背景：在向量大火的行情下，不管是召回还是精排，user和item的相似度计算，必不可少；很多情况下，为了节省线上加载计算的时间，会将user和item的向量，离线计算好，放到存储系统中，线上使用的时候，直接通过KV的形式读取。(没有AB过会节省多少时间，在排序服务中，直接将二者向量导入KV存储系统，直接在线上进行计算，目测也没有增加多少耗时) 先来看看离线如何计算。通常使用spark进行大量的数据计算。其优势见spark优势。例子：假设t1.text中存放user的向量，用逗号分隔，形如：

sklearn 相似度矩阵_基于Sklearn机器学习实战---基于Sklearn模块的链路预测

weixin_42503757的博客

12-31

606

Sklearn简介自2007年发布以来，scikit-learn已经成为Python重要的机器学习库了。scikit-learn简称sklearn，支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。sklearn是Scipy的扩展，建立在NumPy和matplotlib库的基础上。利用这几大模块的优势，可以大大提高机器学习的效率。sklearn拥有着完善...

Spark SQL（七）之基于用户的相似度公式

茅坤宝骏氹的博客

05-05

581

一、基于用户的余弦相似度公式一其中，u、v表示任意两个用户，N(u)表示用户u喜欢的物品集合,N(v)表示用户v喜欢物品的集合。代码 public class UserCFApp { public static void main(String[]args){ SparkConf sparkConf = new SparkConf(); sparkConf.setAppName("UserCFApp"); sparkConf.set

Spark中组件Mllib的学习3之用户相似度计算

Keep Learning

05-16

4509

代码：/** * @author xubo * time 2016.516 * ref 《Spark MlLib 机器学习实战》P64 */ package org.apache.spark.mllib.learning.recommendimport org.apache.spark.{SparkConf, SparkContext}import s