关闭

推荐系统:MovivLens20M数据集解析

此数据集描述了5星之内的电影不受限制的标记,用于给出用户推荐。数据集包含了138493个用户对27278个电影的20000263个评分和465564个标签。此评价收集于1995年1月到2015年3月之间,并在2016年10月17日更新为csv格式。 用户为随机选取,每个选取的用户至少评分20个电影。没有人口统计信息。每个用户只给出一个ID,且不涉及其他私人信息。...
阅读(64) 评论(0)

计算一组向量相似度

以多维几何空间考虑,两组向量的相似度可以描述为在多维几何空间中的距离关系,距离越远,相似度越低。 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。   本文的目的就是对常用的相似性度量作一个总结。...
阅读(93) 评论(0)

推荐系统中基于深度学习的混合协同过滤模型

协同过滤的一个关键点是协同,即找到用户喜好相似的K个用户,一个多维向量的K近邻查找方法。 提出了一种Additional Stacked Denoising Autoencoder(aSDAE)的深度模型用来学习User和Item的隐向量,该模型的输入为User或者Item的评分值列表,每个隐层都会接受其对应的Side information信息的输入(该模型灵感来自于NLP中的Seq-2-Seq模型,每层都会接受一个输入,我们的模型中每层接受的输入都是一样的,因此最终的输出也尽可能的与输入相等)。...
阅读(138) 评论(0)

推荐系统的基本原理

冷启动问题:推荐系统需要数据作为支撑。但亚马逊在刚刚开始做推荐的时候,是没有大量且有效的用户行为数据的。这时候就会面临着“冷启动”的问题。没有用户行为数据,就利用商品本身的内容数据。这就是推荐系统早期的做法。...
阅读(84) 评论(0)

推荐系统入门:作为Rank系统的推荐系统(协同过滤)

推荐系统是一个Rank系统...
阅读(180) 评论(0)

Canopy聚类算法分析

与传统的聚类算法(比如 K-means )不同,Canopy 聚类最大的特点是不需要事先指定 k 值( 即 clustering 的个数),因此具有很大的实际应用价值。与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,因此可以使用 Canopy 聚类先对数据进行“粗”聚类,(摘自于Mahout一书:Canopy算法是一种快速地聚类技术,只需一次遍历数据科技得到结果,无法给出精确的簇结果,但能给出最优的簇数量。可为K均值算法优化超参数..K....)...
阅读(905) 评论(0)

搜索引擎的查询意图识别(关联分析)

通用搜索VS垂直搜索: 通用搜索特点: 抓取互联网上一切有价值的页面,同意建立索引,以关键字匹配为基本检索方式,以网页title和summary为展现方式 google, 百度,搜狗,搜搜,有道 垂直搜索特点: 以一特定类别为主题,只抓取与主题相关信息,根据主题特点有针对性的建立相应的索引检索方式,筛选方式,以及展现方式 机票搜索,地图搜索,购物搜索...
阅读(1214) 评论(0)

基于物品的协同过滤ItemCF的mapreduce实现

基于物品的协同过滤ItemCF 数据集字段: 1.  User_id: 用户ID 2.  Item_id: 物品ID 3.  preference:用户对该物品的评分 算法的思想: 1.  建立物品的同现矩阵A,即统计两两物品同时出现的次数...
阅读(554) 评论(0)

混合推荐系统 类型

混合推荐系统是推荐系统的另一个研究热点,它是指将多种推荐技术进行混合相互弥补缺点,从而可以获得更好的推荐效果。 最常见的是将协同过滤技术和其他技术相结合,克服cold start的问题。 (1)加权型(2)转换型(3)合并型(4)特征组合(5)瀑布型(6)特征递增型(7)元层次型...
阅读(654) 评论(0)

open source project for recommendation system

目前互联网上所能找到的知名开源推荐系统(open source project for recommendation system),并附上了个人的一些简单点评(未必全面准确): SVDFeature,上大C++语言;Crab是基于Python;CofiRank,C++开发;EasyRec=Java开发;Graphlab基于C++分布graph;Mahout知名度很高....................
阅读(905) 评论(0)

推荐系统的十个关键点

亚马逊的CEO Jeff Bezos曾经说过,他的梦想是“如果我有100万个用户,我就要为他们做100万个亚马逊网站”。智能推荐系统承载的就是这个梦想,即通过数据挖掘技术,为每一个用户实现个性化的推荐结果,让每个用户更便捷的获取信息....
阅读(1000) 评论(0)

信息检索及DM必备知识总结:luncene

信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结(为什么概率是可靠的,概率隐藏了大部分事实,而给予我们可以看得见的部分.)...
阅读(584) 评论(0)
    个人资料
    • 访问:822438次
    • 积分:11482
    • 等级:
    • 排名:第1438名
    • 原创:280篇
    • 转载:282篇
    • 译文:28篇
    • 评论:180条