推荐系统
lvtula
这个作者很懒,什么都没留下…
展开
-
NLP处理-Spark中的HashTF与CountVectorizer模型
http://spark.apache.org/docs/latest/ml-features.html#tf-idfimport org.apache.spark.ml.feature._import org.apache.spark.ml.linalg.SparseVectorimport org.apache.spark.sql.SparkSessionimport scala...转载 2020-04-01 11:51:49 · 317 阅读 · 0 评论 -
spark 密集向量和稀疏向量
1、概念稀疏向量和密集向量都是向量的表示方法 密集向量和稀疏向量的区别: 密集向量的值就是一个普通的Double数组 而稀疏向量由两个并列的 数组indices和values组成 例如:向量(1.0,0.0,1.0,3.0)用密集格式表示为[1.0,0.0,1.0,3.0], 用稀疏格式表示为(4,[0,2,3],[1.0,1.0,3.0]) 第一个4表示向量的长度(元素个数),[0,2,3]...转载 2020-04-01 11:50:42 · 634 阅读 · 0 评论 -
如何实现基于内容和用户画像的个性化推荐
个性化推荐系统是一门由数据挖掘和机器学习综合的学科,它必须能够基于用户之前的口味和喜好提供相关的精确的推荐,而且这种口味和喜欢的收集必须尽量少的需要用户的劳动。本文主要介绍了如何基于内容和用呢画像实现一个个性化推荐化系统。作者:飒然Hang来源:后端技术杂谈|2016-04-08 11:39收藏分享网+线下沙龙 | 移动APP模式创新:给你一个做APP的理由>>...原创 2019-05-08 14:41:32 · 910 阅读 · 0 评论 -
推荐系统研究中的九大数据集
推荐系统研究中的九大数据集原文地址ps:对原文有所删减在这篇博客中,作者介绍了九个数据集,其中一些是推荐系统中常用到的标准数据集,也有一些是非传统意义上的数据集(non-traditional datasets),作者相信,这些非传统数据集更接近真实场景的数据。首先,先说明下推荐系统数据中的几个类别:Item:即我们要推荐的东西,如产品、电影、网页或者一条信息片段User...原创 2019-05-06 14:32:39 · 819 阅读 · 0 评论 -
TF-IDF及其算法
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文...原创 2019-05-06 14:48:46 · 415 阅读 · 0 评论 -
推荐算法概述:基于内容的推荐算法、协同过滤推荐算法和基于知识的推荐算法
所谓推荐算法就是利用用户的一些行为,通过一些数学算法,推测出用户可能喜欢的东西。推荐算法主要分为两种1. 基于内容的推荐基于内容的信息推荐方法的理论依据主要来自于信息检索和信息过滤,所谓的基于内容的推荐方法就是根据用户过去的浏览记录来向用户推荐用户没有接触过的推荐项。主要是从两个方法来描述基于内容的推荐方法:启发式的方法和基于模型的方法。启发式的方法就是用户凭借经验来定义相关的计算...转载 2019-05-06 14:56:03 · 1880 阅读 · 0 评论