2020年08月_wangxinRS

08月 07月 06月 04月 03月 02月

原创《推荐系统实战（二）》音乐推荐系统（数据清洗、召回、排序）

前言在本篇博客中，我们将从0搭建一个音乐推荐系统，其中的流程也可以用来搭建其他内容的推荐系统。我们将整个过程分为三个部分，分别是数据预处理召回排序拿到原始数据集之后，我们需要对其进行处理，包括去重、重命名、去掉无用特征等等，最后形成较为简洁清晰的数据集。有了数据集之后，我们进入系统的召回阶段。在这一阶段，我们从大量歌曲中选出少部分歌曲作为候选集，采用的方法有排行榜、协同过滤和矩阵分解。通过召回阶段，我们得到歌曲的候选集，为了进一步筛选，我们采用GBDT+LR的ctr预估方法，对候选集进行

2020-08-13 21:25:50 8914 384

原创《推荐系统实战（一）》基于统计的电影推荐系统（tmdb-5000数据集，数据清洗、特征提取、搭建模型等详细过程）

前言本文将利用kaggle上的电影数据tmdb-5000（已上传，可免费下载；若收费，请联系作者修改），实现一个电影推荐系统。由于数据集并不涉及到用户行为数据，所以我们只能用基于统计或者基于内容的推荐方法。我们将整个项目分为三个部分。数据读取数据预处理和数据可视化搭建推荐系统在第一部分，我们看到tmdb-5000的两个csv文件里面实际上包含着json格式的数据，我们需要对其进行提取。在第二部分，我们对缺失值和关键词信息进行处理，提高数据质量；我们还对部分信息进行可视化展示，方便直观了解数

2020-08-10 23:14:04 5769 63

原创《推荐系统笔记（十七）》userCF和itemCF —— 基于领域的推荐

面对用户-物品评分矩阵，我们有一种推荐思路，叫做基于领域的推荐。什么是itemCF和userCF？可以这样理解，我喜欢这个商品，那么和这个商品非常类似的其他商品，可能也是我喜欢的，这个是itemCF的思路，推荐和用户喜欢的商品类似的其他商品我喜欢这个商品，别人也喜欢这个商品，那么我们可能兴趣很相似，那么那人喜欢的其他商品，可能也是我喜欢的，这个是userCF的思路，推荐和用户相似的其他用户喜欢的商品那么，什么是领域？对于itemCF而言，领域就是和该商品类似的其他商品，这种度量是商品相似度

2020-08-05 18:15:35 571 6

原创《推荐系统笔记（十六）》tf-idf与基于内容的推荐（简单的酒店推荐）

基于内容的推荐，仅仅依赖于物品的信息，对于系统冷启动和物品冷启动，可以有效解决。拿到物品的信息之后，对物品信息进行处理，生成特征向量，然后就可以定义物品相似度，对物品进行推荐。通常，基于内容的推荐遵循下面三个步骤：物品表达（item representation），即从物品信息中抽出特征向量用户侧写（user profile），即根据用户过去行为中，学习到用户喜欢哪些物品特征，讨厌哪些物品特征生成推荐，即通过物品表达和用户侧写，来给用户推荐最相关的物品我们用一份西雅图的酒店数据（seatleH

2020-08-05 11:39:58 712 5

原创《推荐系统笔记（十五）》流行度以及基于流行度的推荐

基于流行度的推荐是围绕着流行度的计算给出的推荐。那么，如何定义流行度呢？流行度有很多定义或者计算方法，比如，简单统计一段时间内的物品的购买次数，或者更加复杂的基于概率论的计算方法无论流行度计算方式如何，影响流行度的两个因素，大概是时间因素，比如，不同时间段内的新闻播报的热度不同，今年和去年流行的衣服不同等等空间因素，比如，位于网站首页的物品和位于多级子页面下的物品流行度不同，不同国家的明星在国内外的关注度也不同我们将采用movielens数据集，采用最简单的流行度统计方式，即电影的观看

2020-08-04 23:08:45 4635 10

原创《推荐系统笔记（十四）》矩阵分解（MF）以及基于矩阵分解的topN推荐

前言用户评分矩阵往往十分稀疏，为了对这种稀疏矩阵进行补全，充分利用已有数据，我们可以采用矩阵分解办法。实际上，一旦矩阵补全，相当于预测出用户对未购买物品的评分，基于这些评分，我们就可以对任何用户进行推荐。本篇博客将对矩阵分解进行介绍，同时介绍两种常用的用来解决矩阵分解问题的算法SGD（随机梯度下降）和ALS（交叉最小二乘）。这两种优化方法还能用来解决两种简单的推荐算法。我们都将利用movielens数据集，对这些方法进行简单的实战演示。MF给定用户评分矩阵Rm×nR_{m\times n}Rm×n

2020-08-04 16:07:43 890

原创《推荐系统笔记（十三）》购物篮分析 —— 基于关联规则的topN推荐

购物篮分析最初出现于大型零售商，他们通过分析大量的发票数据，分析出购买特定商品的消费者更可能还购买哪种商品。Transactions数据集每一个这样的数据，其实就是一个消费者一次购买的商品清单，我们将这样的一个数据称为transaction。这样，训练的数据大概是这样的，IDtransaction0牛奶、面包、尿布1可乐、面包、尿布、啤酒2牛奶、尿布、啤酒、鸡蛋3面包、牛奶、尿布、啤酒4面包、牛奶、尿布、可乐Apriori算法下面，我们将以

2020-08-03 01:37:40 1297

原创《推荐系统笔记（十二）》聚类生成标签以及基于标签的TopN推荐

如何生成标签？一般有PGC（专家生成）UGC（用户生成）但是，面对海量的数据需要打标签时，人工打标签太过昂贵和耗时，一个可行方法是对数据使用聚类，然后将聚类结果作为标签使用。下面给一个聚类的简单例子。# 第三方库import pandas as pdimport numpy as npfrom sklearn.cluster import KMeansimport seaborn as snsimport matplotlib.pyplot as plt# KMeans# 导

2020-08-02 17:28:11 3555 5

原创《推荐系统笔记（十一）》Learning to rank（LTR排序问题）的介绍和RankNet算法（内含详细推导）

前言在美团、大众点评等网站上输入某个关键词时，这些网站该如何对相关的文档进行排序，也就是说，应该将哪个文档排在前面，将哪个文档排在后面。这就涉及到LRT排序问题。本篇博客将简要介绍LTR问题，并对RankNet进行详细推导。训练数据刚接触LTR问题，可以从认识它的训练数据开始。我们将输入的关键词称为queryqueryquery（查询词），搜集到的所有文档集合，记为{doc1,doc2,...,docN}\{doc_1, doc_2, ..., doc_N\}{doc1,doc2,...,do

2020-08-01 17:25:58 1356

原创《推荐系统笔记（十）》CTR预估以及一般算法介绍（GBDT+LR）

前言CTR预估是推荐系统中重要的问题，根据历史数据，我们需要预测用户是否点击。CTR预估同样可以运用到广告中，预测广告的点击率等。CTR数据形式CTR预估问题的数据形式一般是这样的：列名：特征1，特征2，…，特征n，是否点击这其实也是二分类问题，预测是否点击。对于CTR这种二分类问题，我们可以用LR模型。由于LR模型是线性模型，我们需要对原始数据进行特征工程的时候，提取出原始特征的高阶组合特征。比如，当特征有国家和节日这两项时，显然，不同国家在不同节日里，用户对某种商品的需求是不同

2020-08-01 01:01:00 855 1