【推荐系统】概念明确

在入门阶段一些概念的理解,记录一下~ 原文链接找得到都给出了-_-

目录

1、长尾效应与推荐系统的关系?

2、pv与uv的概念

3、CTR = click through rate 点击率

4、用户画像初探


1、长尾效应与推荐系统的关系?

什么是长尾效应?

我这里尽量使用最简洁和最通俗易懂的表述来问答这个问题,因为我觉得在你提问之前应该已经搜索过了这个问题。所以专业化表述就无需在提了。其实长尾效应理解起来非常简单,这就好比一条鱼儿一样。有其头部和尾部,头部虽然肉多庞大,但头部的总质量上却往往低于尾部加起来总质量。但尾部的质量密度却没有头部的密度大。这就是长尾效应。而长尾效应往往用来解释现实生活中的商业理论。将所有非流行的市场累加起来就会形成一个比流行市场还大的市场。

与推荐系统的关系是什么?

一定要加上关系的话,其实也非常理解,目前的推荐系统或者推荐算法,很难发现用户的隐性需求,也是目前推荐算法所追求的,目前而言,现在的推荐系统只能发现你的主观需求,比如你上B站搜索一个关键词后,你会发现,发现它会推荐很多与这个词相关的东西,但是却很难发现你目前不想知道,但心里却感兴趣的东西。所以这个是一个很大的攻克难点。但这并不是一个问题,随着深度学习,人工智能的发展,攻克下来,并不是非常困难。

2、pv与uv的概念

 

3、CTR = click through rate 点击率

作者:雪痕个人理解如下:

实用的推荐系统架构,一般分为召回层、粗排层、精排层以及重排层,这是为了系统的执行效率,先用简单的模型对候选Item进行筛选,再用复杂的模型进行排序,最后上一些业务策略,比如去已读、去重、打散、多样性保证。

CTR预估模型属于point-wise模型,主流的CTR预估模型包括LR,GDBT+LR,FM,Wide&Deep,DeepFM,DIN,DIEN等。

看得出来,随着深度学习的应用,这些年出现在论文里面的CTR预估模型复杂度越来越高,因此现在一般把CTR预估模型用于架构的后半部分。

关于模型的输入

早期的协同过滤算法,只考虑user-item之间的交互,即user id和item id;

传统的机器学习算法LR,GBDT+LR,FM,可以同时对辅助信息进行建模,比如User信息(年龄、性别、出生地),Item信息(图片特征、文字特征),以及特征工程得到的其他信息;

深度学习算法就比较自由了,毕竟基于MF的协同过滤算法,本质上就等于浅层神经网络;对辅助信息建模更不在话下;近几年来提出的模型,很多更是采用了序列化建模的思想,将用户历史行为序列作为输入,把NLP领域常用的序列模型拿过来用,更好地提取用户兴趣信息以及用户兴趣进化信息。

 

4、用户画像初探

无论是推荐系统还是搜索系统,但凡要做所谓的“个性化”,都离不开对用户进行分析,无论是人群的,还是个人的,这一步终究是难以避免的,现在很多的画像工作可能都回归于产品或者数据分析,而在算法领域,这部分工作却被很多人忽视。

是什么?所谓用户画像,就是根据用户的基本信息、行为信息等数据,对用户进行刻画,从而抽象出有利于后续推荐、搜索、商业化等功能的用户信息模型,和一些书籍和资料的描述可能会不一样,关键在于后面的“有利于”,用户画像的构建是要为了后续任务服务的,例如推荐中的召回需要依赖用户偏好进行召回,如果画像内容无法命中物料中的内容,那画像的内容无法产生作用。

为什么?说个例子吧,我们现在要给一个用户进行个性化推荐。那么,怎么给这个用户做个性化推荐,首先就要定义这个个性化,就是针对这个用户的特性进行推荐,什么叫做用户的特性,要描述这个用户,那就需要构建一些特征,然后挖掘一些这个用户的特征,然后根据这个特征再来进行推荐,例如根据用户平时的点击和搜索行为来分析,他喜欢打篮球,喜欢球鞋,那就可以给他推相关的东西了,而这里我们的关心点就在于,要挖掘出这个人喜欢打篮球、喜欢球鞋,这是要做个性化推荐非常重要的先决条件。

怎么做?怎么去挖掘用户画像的内容呢,这其实是一个困难而且是长期的过程。来看看几种常见的画像构建方法。

(1)基础画像

也有叫做用户属性维度的,还是先举几个例子:性别年龄职业位置,这些都是比较基础的画像,这些大都可以通过用户填写个人资料来获取,另外有一些其实可以大概的挖掘推断出来,例如通过位置,可以大概推断职业,如学生,大学生基本就是宿舍教室图书馆,如上班族,工作日基本两点一线。

(2)用户行为

用户行为应该是挖掘空间最大,油水最多的一个,但是需要花费的经历其实也是最多的,可以这么理解,用户的行为是不会骗人的。

然而,用户行为其实又一定程度依赖对物料性质的挖掘,换言之,。例如一篇新闻,是讲新冠肺炎的,那么,我是怎么知道这讲的是和新冠肺炎有关呢,这里面涉及了关键词抽取、主题模型等内容,再例如一双鞋,用户点击了红色的,那么这个是鞋子的性质,就需要被挖掘到。然后根据用户的点击行为,把用户对应“新冠肺炎”的兴趣点、“鞋子:红色”均提取出来。

OK,回到用户画像,用户有了行为,怎么衡量用户是否喜欢?这里提供一个简单的方法:TFIDF。这应该是NLP领域里面非常基础的文本表示方法,那么在这里,我们也要这么去操作。

5、feed流

就是刷淘宝的时候不停下拉不停出现sku的那种东西! 

6、BI模型

目前理解应该是用sql写策略模型,不是在学校做的那种算法模型。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值