- 博客(10)
- 资源 (11)
- 收藏
- 关注
原创 《推荐系统实战(二)》音乐推荐系统(数据清洗、召回、排序)
前言在本篇博客中,我们将从0搭建一个音乐推荐系统,其中的流程也可以用来搭建其他内容的推荐系统。我们将整个过程分为三个部分,分别是数据预处理召回排序拿到原始数据集之后,我们需要对其进行处理,包括去重、重命名、去掉无用特征等等,最后形成较为简洁清晰的数据集。有了数据集之后,我们进入系统的召回阶段。在这一阶段,我们从大量歌曲中选出少部分歌曲作为候选集,采用的方法有排行榜、协同过滤和矩阵分解。通过召回阶段,我们得到歌曲的候选集,为了进一步筛选,我们采用GBDT+LR的ctr预估方法,对候选集进行
2020-08-13 21:25:50 8914 384
原创 《推荐系统实战(一)》基于统计的电影推荐系统(tmdb-5000数据集,数据清洗、特征提取、搭建模型等详细过程)
前言本文将利用kaggle上的电影数据tmdb-5000(已上传,可免费下载;若收费,请联系作者修改),实现一个电影推荐系统。由于数据集并不涉及到用户行为数据,所以我们只能用基于统计或者基于内容的推荐方法。我们将整个项目分为三个部分。数据读取数据预处理和数据可视化搭建推荐系统在第一部分,我们看到tmdb-5000的两个csv文件里面实际上包含着json格式的数据,我们需要对其进行提取。在第二部分,我们对缺失值和关键词信息进行处理,提高数据质量;我们还对部分信息进行可视化展示,方便直观了解数
2020-08-10 23:14:04 5769 63
原创 《推荐系统笔记(十七)》userCF和itemCF —— 基于领域的推荐
面对用户-物品评分矩阵,我们有一种推荐思路,叫做基于领域的推荐。什么是itemCF和userCF?可以这样理解,我喜欢这个商品,那么和这个商品非常类似的其他商品,可能也是我喜欢的,这个是itemCF的思路,推荐和用户喜欢的商品类似的其他商品我喜欢这个商品,别人也喜欢这个商品,那么我们可能兴趣很相似,那么那人喜欢的其他商品,可能也是我喜欢的,这个是userCF的思路,推荐和用户相似的其他用户喜欢的商品那么,什么是领域?对于itemCF而言,领域就是和该商品类似的其他商品,这种度量是商品相似度
2020-08-05 18:15:35 571 6
原创 《推荐系统笔记(十六)》tf-idf与基于内容的推荐(简单的酒店推荐)
基于内容的推荐,仅仅依赖于物品的信息,对于系统冷启动和物品冷启动,可以有效解决。拿到物品的信息之后,对物品信息进行处理,生成特征向量,然后就可以定义物品相似度,对物品进行推荐。通常,基于内容的推荐遵循下面三个步骤:物品表达(item representation),即从物品信息中抽出特征向量用户侧写(user profile),即根据用户过去行为中,学习到用户喜欢哪些物品特征,讨厌哪些物品特征生成推荐,即通过物品表达和用户侧写,来给用户推荐最相关的物品我们用一份西雅图的酒店数据(seatleH
2020-08-05 11:39:58 712 5
原创 《推荐系统笔记(十五)》流行度以及基于流行度的推荐
基于流行度的推荐是围绕着流行度的计算给出的推荐。那么,如何定义流行度呢?流行度有很多定义或者计算方法,比如,简单统计一段时间内的物品的购买次数,或者更加复杂的基于概率论的计算方法无论流行度计算方式如何,影响流行度的两个因素,大概是时间因素,比如,不同时间段内的新闻播报的热度不同,今年和去年流行的衣服不同等等空间因素,比如,位于网站首页的物品和位于多级子页面下的物品流行度不同,不同国家的明星在国内外的关注度也不同我们将采用movielens数据集,采用最简单的流行度统计方式,即电影的观看
2020-08-04 23:08:45 4635 10
原创 《推荐系统笔记(十四)》矩阵分解(MF)以及基于矩阵分解的topN推荐
前言用户评分矩阵往往十分稀疏,为了对这种稀疏矩阵进行补全,充分利用已有数据,我们可以采用矩阵分解办法。实际上,一旦矩阵补全,相当于预测出用户对未购买物品的评分,基于这些评分,我们就可以对任何用户进行推荐。本篇博客将对矩阵分解进行介绍,同时介绍两种常用的用来解决矩阵分解问题的算法SGD(随机梯度下降)和ALS(交叉最小二乘)。这两种优化方法还能用来解决两种简单的推荐算法。我们都将利用movielens数据集,对这些方法进行简单的实战演示。MF给定用户评分矩阵Rm×nR_{m\times n}Rm×n
2020-08-04 16:07:43 890
原创 《推荐系统笔记(十三)》购物篮分析 —— 基于关联规则的topN推荐
购物篮分析最初出现于大型零售商,他们通过分析大量的发票数据,分析出购买特定商品的消费者更可能还购买哪种商品。Transactions数据集每一个这样的数据,其实就是一个消费者一次购买的商品清单,我们将这样的一个数据称为transaction。这样,训练的数据大概是这样的,IDtransaction0牛奶、面包、尿布1可乐、面包、尿布、啤酒2牛奶、尿布、啤酒、鸡蛋3面包、牛奶、尿布、啤酒4面包、牛奶、尿布、可乐Apriori算法下面,我们将以
2020-08-03 01:37:40 1297
原创 《推荐系统笔记(十二)》聚类生成标签以及基于标签的TopN推荐
如何生成标签?一般有PGC(专家生成)UGC(用户生成)但是,面对海量的数据需要打标签时,人工打标签太过昂贵和耗时,一个可行方法是对数据使用聚类,然后将聚类结果作为标签使用。下面给一个聚类的简单例子。# 第三方库import pandas as pdimport numpy as npfrom sklearn.cluster import KMeansimport seaborn as snsimport matplotlib.pyplot as plt# KMeans# 导
2020-08-02 17:28:11 3555 5
原创 《推荐系统笔记(十一)》Learning to rank(LTR排序问题)的介绍和RankNet算法(内含详细推导)
前言在美团、大众点评等网站上输入某个关键词时,这些网站该如何对相关的文档进行排序,也就是说,应该将哪个文档排在前面,将哪个文档排在后面。这就涉及到LRT排序问题。本篇博客将简要介绍LTR问题,并对RankNet进行详细推导。训练数据刚接触LTR问题,可以从认识它的训练数据开始。我们将输入的关键词称为queryqueryquery(查询词),搜集到的所有文档集合,记为{doc1,doc2,...,docN}\{doc_1, doc_2, ..., doc_N\}{doc1,doc2,...,do
2020-08-01 17:25:58 1356
原创 《推荐系统笔记(十)》CTR预估以及一般算法介绍(GBDT+LR)
前言CTR预估是推荐系统中重要的问题,根据历史数据,我们需要预测用户是否点击。CTR预估同样可以运用到广告中,预测广告的点击率等。CTR数据形式CTR预估问题的数据形式一般是这样的:列名:特征1,特征2,…,特征n,是否点击这其实也是二分类问题,预测是否点击。对于CTR这种二分类问题,我们可以用LR模型。由于LR模型是线性模型,我们需要对原始数据进行特征工程的时候,提取出原始特征的高阶组合特征。比如,当特征有 国家 和 节日 这两项时,显然,不同国家在不同节日里,用户对某种商品的需求是不同
2020-08-01 01:01:00 855 1
opencv4.1.1+opencv-contrib4.1.1+boostdesc_bgm.i等.rar
2021-10-20
音乐推荐系统数据集.zip
2020-08-13
tmdb5000.zip
2020-08-08
countries.txt
2020-02-11
lianjia_beijingHousing_fromKaggle.zip
2015-06-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人