自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (11)
  • 收藏
  • 关注

原创 《推荐系统实战(二)》音乐推荐系统(数据清洗、召回、排序)

前言在本篇博客中,我们将从0搭建一个音乐推荐系统,其中的流程也可以用来搭建其他内容的推荐系统。我们将整个过程分为三个部分,分别是数据预处理召回排序拿到原始数据集之后,我们需要对其进行处理,包括去重、重命名、去掉无用特征等等,最后形成较为简洁清晰的数据集。有了数据集之后,我们进入系统的召回阶段。在这一阶段,我们从大量歌曲中选出少部分歌曲作为候选集,采用的方法有排行榜、协同过滤和矩阵分解。通过召回阶段,我们得到歌曲的候选集,为了进一步筛选,我们采用GBDT+LR的ctr预估方法,对候选集进行

2020-08-13 21:25:50 8914 384

原创 《推荐系统实战(一)》基于统计的电影推荐系统(tmdb-5000数据集,数据清洗、特征提取、搭建模型等详细过程)

前言本文将利用kaggle上的电影数据tmdb-5000(已上传,可免费下载;若收费,请联系作者修改),实现一个电影推荐系统。由于数据集并不涉及到用户行为数据,所以我们只能用基于统计或者基于内容的推荐方法。我们将整个项目分为三个部分。数据读取数据预处理和数据可视化搭建推荐系统在第一部分,我们看到tmdb-5000的两个csv文件里面实际上包含着json格式的数据,我们需要对其进行提取。在第二部分,我们对缺失值和关键词信息进行处理,提高数据质量;我们还对部分信息进行可视化展示,方便直观了解数

2020-08-10 23:14:04 5769 63

原创 《推荐系统笔记(十七)》userCF和itemCF —— 基于领域的推荐

面对用户-物品评分矩阵,我们有一种推荐思路,叫做基于领域的推荐。什么是itemCF和userCF?可以这样理解,我喜欢这个商品,那么和这个商品非常类似的其他商品,可能也是我喜欢的,这个是itemCF的思路,推荐和用户喜欢的商品类似的其他商品我喜欢这个商品,别人也喜欢这个商品,那么我们可能兴趣很相似,那么那人喜欢的其他商品,可能也是我喜欢的,这个是userCF的思路,推荐和用户相似的其他用户喜欢的商品那么,什么是领域?对于itemCF而言,领域就是和该商品类似的其他商品,这种度量是商品相似度

2020-08-05 18:15:35 571 6

原创 《推荐系统笔记(十六)》tf-idf与基于内容的推荐(简单的酒店推荐)

基于内容的推荐,仅仅依赖于物品的信息,对于系统冷启动和物品冷启动,可以有效解决。拿到物品的信息之后,对物品信息进行处理,生成特征向量,然后就可以定义物品相似度,对物品进行推荐。通常,基于内容的推荐遵循下面三个步骤:物品表达(item representation),即从物品信息中抽出特征向量用户侧写(user profile),即根据用户过去行为中,学习到用户喜欢哪些物品特征,讨厌哪些物品特征生成推荐,即通过物品表达和用户侧写,来给用户推荐最相关的物品我们用一份西雅图的酒店数据(seatleH

2020-08-05 11:39:58 712 5

原创 《推荐系统笔记(十五)》流行度以及基于流行度的推荐

基于流行度的推荐是围绕着流行度的计算给出的推荐。那么,如何定义流行度呢?流行度有很多定义或者计算方法,比如,简单统计一段时间内的物品的购买次数,或者更加复杂的基于概率论的计算方法无论流行度计算方式如何,影响流行度的两个因素,大概是时间因素,比如,不同时间段内的新闻播报的热度不同,今年和去年流行的衣服不同等等空间因素,比如,位于网站首页的物品和位于多级子页面下的物品流行度不同,不同国家的明星在国内外的关注度也不同我们将采用movielens数据集,采用最简单的流行度统计方式,即电影的观看

2020-08-04 23:08:45 4635 10

原创 《推荐系统笔记(十四)》矩阵分解(MF)以及基于矩阵分解的topN推荐

前言用户评分矩阵往往十分稀疏,为了对这种稀疏矩阵进行补全,充分利用已有数据,我们可以采用矩阵分解办法。实际上,一旦矩阵补全,相当于预测出用户对未购买物品的评分,基于这些评分,我们就可以对任何用户进行推荐。本篇博客将对矩阵分解进行介绍,同时介绍两种常用的用来解决矩阵分解问题的算法SGD(随机梯度下降)和ALS(交叉最小二乘)。这两种优化方法还能用来解决两种简单的推荐算法。我们都将利用movielens数据集,对这些方法进行简单的实战演示。MF给定用户评分矩阵Rm×nR_{m\times n}Rm×n

2020-08-04 16:07:43 890

原创 《推荐系统笔记(十三)》购物篮分析 —— 基于关联规则的topN推荐

购物篮分析最初出现于大型零售商,他们通过分析大量的发票数据,分析出购买特定商品的消费者更可能还购买哪种商品。Transactions数据集每一个这样的数据,其实就是一个消费者一次购买的商品清单,我们将这样的一个数据称为transaction。这样,训练的数据大概是这样的,IDtransaction0牛奶、面包、尿布1可乐、面包、尿布、啤酒2牛奶、尿布、啤酒、鸡蛋3面包、牛奶、尿布、啤酒4面包、牛奶、尿布、可乐Apriori算法下面,我们将以

2020-08-03 01:37:40 1297

原创 《推荐系统笔记(十二)》聚类生成标签以及基于标签的TopN推荐

如何生成标签?一般有PGC(专家生成)UGC(用户生成)但是,面对海量的数据需要打标签时,人工打标签太过昂贵和耗时,一个可行方法是对数据使用聚类,然后将聚类结果作为标签使用。下面给一个聚类的简单例子。# 第三方库import pandas as pdimport numpy as npfrom sklearn.cluster import KMeansimport seaborn as snsimport matplotlib.pyplot as plt# KMeans# 导

2020-08-02 17:28:11 3555 5

原创 《推荐系统笔记(十一)》Learning to rank(LTR排序问题)的介绍和RankNet算法(内含详细推导)

前言在美团、大众点评等网站上输入某个关键词时,这些网站该如何对相关的文档进行排序,也就是说,应该将哪个文档排在前面,将哪个文档排在后面。这就涉及到LRT排序问题。本篇博客将简要介绍LTR问题,并对RankNet进行详细推导。训练数据刚接触LTR问题,可以从认识它的训练数据开始。我们将输入的关键词称为queryqueryquery(查询词),搜集到的所有文档集合,记为{doc1,doc2,...,docN}\{doc_1, doc_2, ..., doc_N\}{doc1​,doc2​,...,do

2020-08-01 17:25:58 1356

原创 《推荐系统笔记(十)》CTR预估以及一般算法介绍(GBDT+LR)

前言CTR预估是推荐系统中重要的问题,根据历史数据,我们需要预测用户是否点击。CTR预估同样可以运用到广告中,预测广告的点击率等。CTR数据形式CTR预估问题的数据形式一般是这样的:列名:特征1,特征2,…,特征n,是否点击这其实也是二分类问题,预测是否点击。对于CTR这种二分类问题,我们可以用LR模型。由于LR模型是线性模型,我们需要对原始数据进行特征工程的时候,提取出原始特征的高阶组合特征。比如,当特征有 国家 和 节日 这两项时,显然,不同国家在不同节日里,用户对某种商品的需求是不同

2020-08-01 01:01:00 855 1

opencv4.1.1+opencv-contrib4.1.1+boostdesc_bgm.i等.rar

jetson nano上opencv4.1.1的编译源码,其中包括opencv4.1.1、opencv-contrib-4.1.1和相关的下载文件boostdesc_bgm.i等

2021-10-20

jetpack3.3安装包.rar

内含JetPack-L4T-3.3-linux-x64_b39.run安装包

2021-09-28

openvino版yolov5.zip

参考博客《win上部署基于openvino2020.2的yolov5算法》

2021-09-27

yolov5_convert_onnx.zip

用于将.pt转成.onnx

2021-09-26

音乐推荐系统数据集.zip

这是一份音乐数据集,包含上千万的数据。里面有两个文件,一个.txt文件,用来保存用户行为数据集,一个.db文件,用来保存音乐具体信息数据集。通过这两份数据集,我们可以搭建一个音乐推荐系统。

2020-08-13

tmdb5000.zip

这是一份电影数据,来自kaggle平台上,主要是美国地区的4800多部电影的详细信息,包括 剧组信息、演员信息、类别、关键词、点赞数等等。我们可以用来做数据探索,或者电影推荐等。

2020-08-08

seatleHotels.txt

这是一份西雅图酒店数据集,有三个特征,酒店名称、酒店地址以及描述。可以用这份数据集的描述部分进行tf-idf分析,进而推荐相似酒店。

2020-08-05

footballTeams.txt

这是一个非常简单的足球队信息的数据集,包括各个国家在三个年份的排名。通过对排名数据的聚类,我们可以将不同国家足球队分成几个档次。

2020-08-02

movielens.zip

该数据集是常用的推荐系统数据集,主要包括用户观看电影的相关信息。具体包括用户信息,电影信息,用户观看电影时的评分和时间等信息。

2020-07-29

countries.txt

在对网页采取requests_html数据抓取之后,我们对网页的所有内容进行txt输出。由于网页中有太多其他引导性内容,且我们需要的主要内容很集中,所以我们直接将主要内容复制粘贴进countries.txt,留待进一步提取内容。

2020-02-11

lianjia_beijingHousing_fromKaggle.zip

该数据集主要包含2011-2017链家平台上北京房价数据,有26个特征,压缩包大小50M,可以用来做房价预测等,详细kaggle链接:https://www.kaggle.com/ruiqurm/lianjia

2015-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除