数据挖掘
江西师范大学-20届-吴悠
江西师范大学20届软件学院毕业生,大数据方向,大数据技术、机器学习、深度学习、爬虫、Django、区块链、ACM、PS修图、Pr视频剪辑、摄影都搞。爱好旅游、摄影、跑步、读书。
展开
-
推荐系统的评测指标
推荐系统的评测指标用户满意度用户作为推荐系统的重要参与者,其满意度是评测推荐系统的最重要指标。但是,用户满意度没有办法离线计算,只能通过用户调查或者在线实验获得。预测准确度预测准确度度量一个推荐系统或者推荐算法预测用户行为的能力。这个指标是最重要的推荐系统离线评测指标,从推荐系统诞生的那一天起,几乎99%与推荐相关的论文都在讨论这个指标。这主要是因为该指标可以通过离线实验计算,方便...原创 2019-01-14 18:05:31 · 795 阅读 · 0 评论 -
推荐系统冷启动问题
冷启动问题简介解决办法利用用户注册信息将用户所属类别的各张表查询出来的结果按照一定权重相加,得出用户的最终推荐列表。规范表述如下:...原创 2019-08-14 19:56:22 · 109 阅读 · 0 评论 -
利用用户标签数据
根据给物品打标签的人的不同,标签应用一般分为两种:一种是让作者或者专家给物品打标签;另一种是让普通用户给物品打标签,也就是UGC(User Generated Content,用户生成的内容)的标签应用。UGC的标签系统是一种表示用户兴趣和物品语义的重要方式。当一个用户对一个物品打上一个标签,这个标签一方面描述了用户的兴趣,另一方面则表示了物品的语义,从而将用户和物品联系了起来。用户为什么进行...原创 2019-08-15 19:26:29 · 203 阅读 · 0 评论 -
时间上下文推荐算法
用户所处的上下文(context)包括用户访问推荐系统的时间、地点、心情等,对于提高推荐系统的推荐系统是非常重要的。时间效应简介用户兴趣是变化的,物品也是有生命周期的,季节效应。系统时间特征的分析通过统计如下信息研究系统的时间特性:数据集每天独立用户数的增长情况,系统的物品变化情况,用户访问情况。以用如下指标度量网站中物品的生命周期:物品平均在线天数,相隔T天系统物品流行度向量的平均相似...原创 2019-08-16 18:59:43 · 767 阅读 · 0 评论 -
时间段图模型
路径融合算法可以基于图上的广度优先搜索算法实现。原创 2019-08-16 19:12:38 · 338 阅读 · 0 评论 -
地点上下文信息
不同地区的用户兴趣有所不同,用户到了不同的地方,兴趣也会有所不同。明尼苏达大学的研究人员提出过一个称为LARS(Location Aware Recommender System,位置感知推荐系统)的和用户地点相关的推荐系统。该系统首先将物品分成两类,一类是有空间属性的,比如餐馆、商店、旅游景点等,另一类是无空间属性的物品,比如图书和电影等。同时,它将用户也分成两类,一类是有空间属性的,比如给出...原创 2019-08-16 19:44:05 · 266 阅读 · 0 评论 -
社交网络数据的简介
获取社交网络数据的途径电子邮件我们可以通过分析用户的联系人列表了解用户的好友信息,而且可以进一步通过研究两个用户之间的邮件往来频繁程度度量两个用户的熟悉程度。用户注册信息用户的位置数据讨论和讨论组即时聊天工具社交网站社会图谱和兴趣图谱QQ为代表的社交网络称为社交图谱(social graph),人们的好友一般都是自己在现实社会中认识的人,比如亲戚、同学、同事等,而且好友关系是...原创 2019-08-16 20:08:17 · 1246 阅读 · 0 评论 -
基于邻域的社会化推荐算法
原创 2019-08-16 20:18:34 · 234 阅读 · 0 评论 -
基于图的社会化推荐算法
在社交网站中存在两种关系,一种是用户对物品的兴趣关系,一种是用户之间的社交网络关系。原创 2019-08-16 20:36:19 · 396 阅读 · 0 评论 -
实际系统中的社会化推荐算法
原创 2019-08-16 20:38:23 · 191 阅读 · 0 评论 -
信息流推荐
信息流就相当于我们的QQ空间,展示了好友最新的动态,我们更多的时候关心好友的说说是不是提到了自己。原创 2019-08-17 19:50:37 · 429 阅读 · 0 评论 -
评分预测问题
离线实验方法评分预测算法平均值最简单的评分预测算法是利用平均值预测用户对物品的评分的。全局平均值用户评分平均值用户分类对物品分类的平均值基于领域的方法基于用户的邻域算法基于物品的邻域算法隐语义模型与矩阵分解模型SVD分解Simon Funk的SVD分解(学渣这一部分看不懂,就随便做点笔记吧)Simon Funk在博客上公布了一个算法(称为Funk-...原创 2019-08-18 20:20:11 · 347 阅读 · 0 评论 -
推荐系统架构
推荐系统通过分析用户的行为日志,给用户生成推荐列表,最终展示到网站的界面上。外围架构推荐系统要发挥强大的作用,除了推荐系统本身,主要还依赖于两个条件——界面展示和用户行为数据。看看目前流行的推荐系统界面,可以看到这些界面都有一些共性:通过一定方式展示物品,主要包括物品的标题、缩略图和介绍等。很多推荐界面都提供了推荐理由,理由可以增加用户对推荐结果的信任度。推荐界面还需要提供一些按钮...原创 2019-08-18 19:09:45 · 344 阅读 · 0 评论 -
推荐系统的数据集
推荐系统常用数据集 - 璀璨下的一点星辰 - CSDN博客https://blog.csdn.net/cuicanxingchen123456/article/details/81937919?tdsourcetag=s_pcqq_aiomsg16个推荐系统开放公共数据集整理分享 - hellozhxy的博客 - CSDN博客https://blog.csdn.net/hellozhxy/a...原创 2019-06-04 09:20:54 · 604 阅读 · 0 评论 -
好的推荐系统是什么
好的推荐系统是什么《推荐系统实战》的笔记什么是推荐系统?作为信息消费者,如何从大量信息中找到自己感兴趣的信息是一件非常困难的事情;作为信息生产者,如何让自己生产的信息脱颖而出,受到广大用户的关注,也是一件非常困难的事情。推荐系统就是解决这一矛盾的重要工具。推荐系统的任务就是联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息...原创 2019-01-14 16:09:09 · 254 阅读 · 0 评论 -
利用用户行为数据
用户行为数据简介按照反馈的明确性,用户行为数据分为两种:显性反馈数据和隐形反馈数据。其优缺点如下按照反馈的方向分,又可以分为正反馈和负反馈。正反馈指用户的行为倾向于指用户喜欢该物品,而负反馈指用户的行为倾向于指用户不喜欢该物品。在显性反馈中,很容易区分一个用户行为是正反馈还是负反馈,而在隐性反馈行为中,就相对比较难以确定。一般来说,不同的数据集包含不同的行为,目前比较有代表性的数据集有下...原创 2019-01-15 16:56:47 · 257 阅读 · 0 评论 -
基于用户的协同过滤算法
采用 GroupLens 提供的 MovieLens 数据集数据集下载链接:https://grouplens.org/datasets/movielens/采用此版本的数据集:该数据集包含 6000 多用户对 4000 多部电影的 100 万条评分。使用TopN推荐方法评测指标基于用户的协同过滤算法基于用户的协同过滤算法主要包括两个步骤。(1) 找到和目标用户兴趣相似的用户集...原创 2019-01-15 19:43:02 · 467 阅读 · 0 评论 -
LFM隐语义模型的算法简介
对最优化理论或者机器学习有所了解的读者,可能对如何计算这两个参数都比较清楚。这两个参数是从数据集中计算出来的。要计算这两个参数,需要一个训练集,对于每个用户 u ,训练集里都包含了用户 u 喜欢的物品和不感兴趣的物品,通过学习这个数据集,就可以获得上面的模型参数。推荐系统的用户行为分为显性反馈和隐性反馈。 LFM 在显性反馈数据(也就是评分数据)上解决评分预测问题并达到了很好的精度。不过本章主...原创 2019-02-14 23:04:35 · 507 阅读 · 0 评论 -
基于物品的协同过滤算法
基础算法(1) 计算物品之间的相似度。(2) 根据物品的相似度和用户的历史行为给用户生成推荐列表。购买了该商品的用户也经常购买的其他商品。从这句话的定义出发,我们可以用下面的公式定义物品的相似度:从上面的定义可以看到,在协同过滤中两个物品产生相似度是因为它们共同被很多用户喜欢,也就是说每个用户都可以通过他们的历史兴趣列表给物品“贡献”相似度。这里面蕴涵着一个假设,就是每个用户的兴趣...原创 2019-02-12 22:06:55 · 492 阅读 · 0 评论 -
基于用户和物品的协调过滤算法的比较
1、优缺点比较2、性能比较首先要指出的是,离线实验的性能在选择推荐算法时并不起决定作用。首先应该满足产品的需求,比如如果需要提供推荐解释,那么可能得选择 ItemCF 算法。其次,需要看实现代价,比如若用户太多,很难计算用户相似度矩阵,这个时候可能不得不抛弃 UserCF 算法。最后,离线指标和点击率等在线指标不一定成正比。而且,这里对比的是最原始的 UserCF 和 ItemCF 算法,这...原创 2019-02-12 22:08:38 · 416 阅读 · 0 评论 -
ItemCF算法中的哈利波特问题
原始的ItemCF算法的覆盖率和新颖度都不高这就是哈利波特问题。原创 2019-02-12 22:17:02 · 2410 阅读 · 0 评论 -
隐语义模型简介
LFM ( latent factor model )隐语义模型该算法最早在文本挖掘领域被提出,用于找到文本的隐含语义。相关的名词有 LSI 、 pLSA 、 LDA 和 Topic Model 。基础算法隐语义模型是最近几年推荐系统领域最为热门的研究话题,它的核心思想是通过隐含特征(latent factor) 联系用户兴趣和物品。首先通过一个例子来理解一下这个模型。图 2-16 展示了...原创 2019-02-12 22:32:06 · 527 阅读 · 0 评论 -
基于图的模型
用户行为数据的二分图表示基于图的模型( graph-based model )是推荐系统中的重要内容。其实,很多研究人员把基于邻域的模型也称为基于图的模型,因为可以把基于邻域的模型看做基于图的模型的简单形式。在研究基于图的模型之前,首先需要将用户行为数据表示成图的形式。本章讨论的用户行为数据是由一系列二元组组成的,其中每个二元组 (u, i) 表示用户 u 对物品 i 产生过行为。这种数据...原创 2019-03-03 23:33:06 · 460 阅读 · 0 评论 -
音乐推荐系统
代码如下:import osimport pandas as pdfrom operator import itemgetterfrom collections import defaultdictrandom.seed(0) #设置好随机种子,即相同的随机种子seedclass UserBasedCF(object): def __init__(self): ...原创 2020-07-12 10:33:15 · 154 阅读 · 0 评论 -
给用户推荐好友
好友推荐算法在社交网络上被称为链接预测(link prediction)。基于内容的匹配我们可以给用户推荐和他们有相似内容属性的用户作为好友。下面给出了常用的内容属性。用户人口统计学属性,包括年龄、性别、职业、毕业学校和工作单位等。用户的兴趣,包括用户喜欢的物品和发布过的言论等。用户的位置信息,包括用户的住址、IP地址和邮编等。基于共同兴趣的好友推荐根据用户喜欢的东西计算相识度...原创 2019-08-17 20:08:03 · 555 阅读 · 0 评论