推荐系统,如何比你更了解你自己?

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

今天,我们已经来到信息过剩时代,每个人都已经不可能穷尽所有需要的信息。在此背景下,推荐系统应运而生,无论是看新闻、听音乐,还是查论文、选图书,推荐系统已经在不知不觉之间渗透到了我们生活的方方面面。我们该如何找到自己最需要、最合适的信息?我们该如何保护自己的隐私?推荐系统如何发现我们自己都不知道的兴趣……

为了帮助消费者和开发者揭开推荐系统的神秘面纱,让这项技术更好地帮助每一个人,AI Time特别邀请了清华大学计算机系副教授张敏、搜狗搜索研发总经理陈炜鹏、北京邮电大学副教授程祥、智谱·AI CTO张鹏、中国人民大学副教授张静、中科创星投资总监&CCF YOCSEF学术秘书李文珏,一起论道推荐系统之“效率”。

话题背景:

1994年,在美国明尼苏达出现了第一个自动化的推荐系统Google plans。

1997年,推荐系统概念首次出现。

1998年,亚马逊上线了第一个基于物品的协同过滤算法,取得了非常好的推荐效果。

2006年,在线视频服务提供商Netflix宣布了电影推荐竞赛,吸引了学术界和工业界大量关注,成为标志性事件。

2016年,YouTube发表论文,将深度学习和推荐系统结合起来,实现了从大规模可选的推荐内容中找到最有可能推荐的结果的效果。

……

从目录分类到搜索引擎,再到推荐系统,如何在信息过剩时代高效获取信息,信息消费者和信息生产者都遇到了很大的挑战。一方面,信息消费者从大量信息中找到自己感兴趣的信息变得越来越困难,另一方面,信息生产者为了让自己生产的信息能够脱颖而出、受到广大用户关注也倍感艰辛。推荐系统的核心本质是什么?现在面临的最主要的问题是什么?推荐系统将如何进化……对于推荐系统的热点问题,各位嘉宾给出了自己的观点和解决方案。

推荐系统的内涵和外延

无论是推荐视频、商品,还是推荐人才和论文,推荐系统无处不在,推荐系统的本质是什么?它的核心价值在哪?在什么场景下还具有更有意义的价值?

推荐系统和搜索引擎不一样,搜素引擎根据输入信息输出信息,而推荐系统要能够满足用户的需求,但这个需求有可能是用户自己都不太知道、无法表达出来的隐性需求,因此非常难,张敏老师首先通过一个送礼物的实际案例解释了自己对推荐系统的理解。

推荐系统解决的是人、物、场的连接问题,在工业级推荐系统里面,还需要关注内容生态的问题,推荐效率、推荐精准性可能是一个很关键的壁垒,但背后的内容生态其实是一个更重要的支撑,打造推荐系统需要注意用户和系统可以比较好地共生。陈炜鹏老师站在工业界的角度对推荐系统介绍了自己的看法。

推荐系统该有哪些类别,如何评价它?

学术界在看推荐系统的时候,可能会区分不同的场景,即推荐的是什么,如信息流推荐、商品推荐等,互补推荐和同类推荐在一个场景下也会动态转换。这需要用到用户的行为分析,即分析用户所处的场景。张敏老师对上述问题介绍了自己的认识。

计算广告与推荐系统有哪些异同点

推荐系统中更关注用户满意满意度,即满足用户、粘住用户,然后带来流量;在线广告系统更关注流量变现,要从商业上去考量,要权衡用户的满意度和广告主的利益。推荐系统是服务提供商和用户之间的一个问题,在线广告系统涉及第三方,即广告主,程祥老师就二者的利益相关做了介绍。

除了商业领域,推荐系统还有哪些应用领域?

其实,推荐系统在信息流、娱乐、社交、金融、医疗健康、教育、科学研究等各个领域都有价值。事实上,凡是需要用到信息的地方,推荐系统都会都会起作用。张鹏老师和张敏老师就商业领域之外的推荐系统进行了简单介绍。

推荐系统中的技术挑战

在线实验和离线实验的差别

评价一个推荐系统的指标,除了学术上常用的一些标准的指标,现实情况会更复杂,需要到实际的应用场景当中去,最终的评价要看用户的反馈,张鹏老师结合自身经验介绍了评价推荐系统的标准,并指出离线评价是用统一的标准横向比较,在线评价是基于自身进行纵向评价。只有在线有时候是不太够的,在线也不能解决所有的问题。

从学术角度来讲,研究人员特别希望能够有在线实验,因为在线实验是最终的检验。但是在线实验会涉及很多复杂的因素,很难控制到只改变一个因素,且在线实验不可重复、涉及经济利益,所以公司都会特别谨慎。因此,离线实验其实是离不开的,只有在离线测试上取得了特别好的效果,才能够应该进行在线实验。张敏老师从学术的角度分析了离线测试与在线测试的异同。

在实际场景里面,会比较关注离线实验,因为通过离线实验能够比较好地进行各种方法的比较。在实现的环节,因为一个模型推到线上去实验的周期可能会很长,不可控性可能会很大,所以用线下评价的方式对提升团队的效率有非常好的参考意义。陈炜鹏根据在企业中操作的实际分析了二者的区别。并指出:推荐系统是一个动态的系统,如新闻推荐有很强的时效性,传统方法不能够很好地捕捉内容和用户需求的动态变化,所以在离线的时候会设计回放系统,比如说拿过去24小时进行训练,然后拿1小时进行测试,然后再把这个1小时添加到训练中来,然后在后面再拿后1个小时来测试,尽量保证离线的环境跟在线的环境会比较相符,从而能够得到比较好的效果。

在线的时候怎么评价结果好不好?CTR很重要,但是只用CTR肯定不行,还要看用户满意度。不过,用户没办法直接告诉你满意度,而且用户行为很复杂。有时用户明知道内容比较差,也会点进去,造成劣质内容点击率很高,这时如果依靠点击率来调系统,就会出现类似劣币驱逐良币的现象。张敏老师通过自己在研究中发现的实际现象介绍了在线评价的困难。

知识图谱、图表示学习与推荐系统结合的研究挑战是什么?

挑战存在几个方面:一方面,图结构的复杂程度、问题的规模、解决的效率和算力等之间存在一个挺大的冲突。另一方面,图结构的参数非常多,所以调起来就不那么容易,要求的数据量也特别大。有没有化繁为简的方式?可以试着从脑科学里面寻求答案,其实在科研中可以稍微往远想一下,这时也许会有一些值得借鉴的东西能放进来,如果只是在让图模型变得越来越复杂的话,张敏老师担心其对产业界实际应用的帮助不会太大。

知识图谱有可能对提升推荐系统的可解释性、泛化能力有很大的价值,所以在学术界里面其实有很多相关的研究。在产业界也比较关注这方面的工作,但通用知识图谱的可用性可能存在挑战,垂直领域的图谱用起来可能会更加好用一些,这就会存在一个投入产出比的权衡。图表示学习能够非常好地、完整地建模推荐过程,比如说把如果用户和物品表示成点,然后把交互表示成边的话,其实比现有模型的表示能力会强很多,但计算的瓶颈确实也是一个很大的问题。陈炜鹏老师从价值和成本等角度对技术进行了分析。

如何提升推荐系统的可解释性?

可解释性在推荐里面被研究挺久了,做解释其实很开放,我们能想到的可能会有帮助的内容往往真的会有帮助。最近,张敏老师在想一些有趣的问题:解释会不会带来进一步的信息的偏见?怎么保证解释的正确性?如何避免解释的偏见?对解释本身进行评价比较复杂,但上述问题研究界都在做,对产业界和用户也可能带来有意思的价值。

推荐一个专家或结果,往往要给出一个理由说明为什么推荐,这种需求是很多的。而图表示学习等方法之所以不可解释,因为它很多时候是端到端的,中间没有过程,现在工业界很多方法是把一个端到端的问题拆解成若干段,尝试用若干段的结果来作为整体的推荐结果的解释。这是张鹏老师团队正在尝试的一些方法,但是这类解释可能是片面的,或者本身的准确率也不够。

目前,Neural model在推荐里面现在用得比较广泛,针对Neural model,张敏老师介绍了几类方法来提升可解释性:(1)往中间加探针,即把每一个阶段加个探针,告诉中间这个阶段的输出是什么。(2)在使用Neural model的同时使用一个具有更好解释性的模型例如决策树共同学习,这时,虽然Neural model不可解释,但是通过旁边的决策树等模型,它就变成可解释的了,把知识图谱用进去也是从这条路走的。(3)把逻辑加到Neural model里面,这样的话神经元它就有含义了,Neural model本身就有一些可解释性了。

可解释性是一个很开放的问题,具体要看怎么去定义它。比如可以在神经网里面加入了Attention,因为它是某种程度上也是有一定的可解释性的。此外,程祥老师认为在一些场景下可解释性可能很重要,但是在有些场景下可解释性未必很重要,无论是黑猫还是白猫,抓到耗子就是好猫,只要最后咱们的效果有了就可以了。

推荐系统与用户隐私之间如何平衡?

推荐系统如果想要在一个上下文条件下精准地做到物品和用户的匹配,最根本来讲需要大量的数据,如历史数据等,了解用户越多,模型的效果会越好。但是,用户数据往往很多时候是敏感的,对此,程祥老师表示从非技术角度期待着一些法律法规,从技术角度希望能达到推荐系统和用户隐私之间的一个平衡,并在技术上做一些探索(如结合联邦学习让数据不动),或者在参数上去做一些文章,如先在一些不敏感或私有数据上训练出一个大概的模型,然后再和用户的本地的数据结合,给用户做一些个性化的推荐。此外,程祥老师也提到利用一些隐私计算的技术做到“数据可用不可见”,然后构建出这样一个精准的推荐模型。

推荐系统的产业落地

现在工业界主流的推荐系统框架是什么?它们未来的发展趋势大概是什么样的?

对此,陈炜鹏老师指出:在工业系统里面永远存在一个特别大的矛盾是:效果和效率的矛盾。无论是在搜索还是在推荐中,整体结构通常都是漏斗结构,分为召回、排序、重排序,召回端要求效率要非常高,而排序端要求效果要非常好,所以特别重的模型通常都会放在排序端,这个模型相当于是一个漏斗,把这个结果一层一层往下漏。

在召回阶段,除了传统的协同过滤等方式,现在研究比较多的是基于用户行为序列去预测他的后面的点击,用图模型去做召回的预测等工作。实际系统在召回层面也会去考虑多个目标(如时长、点击率、分享率等)之间的融合,还会在实际的系统里面也会考虑用户的多兴趣的表示,因为如果用一个个向量去表示用户的话,通常很容易出现召回结果的多样性不足。

排序是学术界研究特别多的内容,从早期的Wide and Deep到DeepFM,再到去年Facebook的DLRM,主要思路都是怎么样去提升模型的建模能力、特征组合的能力。这一块工业界跟进的比较及时。

现在推荐内容的既有图文新闻也有视频,这时异质数据的融合是一个比较重要的问题。优化推荐系统并不是孤立地希望推某个结果后用户点击率高,因为推荐跟搜索有个很大的差别:搜索是一个序列优化问题,要把最好的结果往前排,用完即走。推荐系统是一个组合优化问题,需要考虑多样性和差异性,让排出来的整体结果用户的消费时长更长。强化学习在这里面也会有一些应用。

针对推荐系统发展的趋势,张鹏老师认为推荐涉及用户接受推荐结果的一个认知的问题。所以很大的趋势还是要结合认知的相关研究,首先要对用户认知有深刻地理解,然后推荐系统才会做得更好。如何把认知的理论转化算法的模型,使其能够计算,其实都是值得研究的问题。

如何平衡效率和效果?

从大的方向来说,张敏老师很认同产业界分阶段的做法,即有的阶段以效率为主,有的阶段在可行的情况下以效果为主。

可以考虑线下计算和线上计算相结合,把一些耗时的计算可以先在线下做好,线上捕捉到用户的动态的信息的话再做一些推荐。程祥老师对综合线上线下来平衡效率和效果提出了很好的思路。

工业界永远是很“贪心”的,张鹏老师一针见血地指出大家都在研究的就是怎么最大化保证理论上的模型效果的前提下,在工业系统当中能够提升效率,有时候甚至要牺牲头部的效果去保证在效率上面能满足在线用户的需求。

产业界最关心什么?希望学术界输出什么?

对比自然语言处理跟搜索公用的评测集的状况,会发现针对搜索或推荐领域的公众评测集其实是相对比较少的,如果有更加贴合实际场景的评价集或评价方式,对于工业界而言可能会更加友好一些,陈炜鹏老师呼吁这一块最好能够有一种共建的模式,让大家共同去推动这块的发展。今年微软开放了一个跟推荐场景很贴合的英文评价集MIND,陈炜鹏老师建议大家可以关注一下。

针对陈炜鹏老师的建议,张鹏老师介绍了自己其实在努力跟学术界一起合作,开放一些数据集,搞一些产业界的比赛,让很多人能够来一起来把这个事情做好,从而帮助学术界的人了解工业界真正面临的问题是什么。工业界的实际问题可能比抽象出来的一个学术的问题要更复杂,往往不是一篇论文的模型能够解决的,所以,产业界希望能够跟学位界来合作,探索怎么在一个复杂环境下,站在系统工程、复杂工程的角度去系统性地解决问题。并用大飞机制造为例进行了解释。

推荐系统的未来

除了商品匹配用户这个核心问题之外,未来有哪些新问题、新挑战值得研究?

推荐系统存在一个一直以来始终没有被解决的、天然的挑战:冷启动的问题。每天都有新的用户、新的商品、新的资讯、新的场景,而新意味着我们对其什么都不知道,这个时候要怎么样去推荐?这个问题一直不能算被解决了,近年来大家一直在这条路上走,现在走的人越来越多,并借助越来越多的手段,所以张敏老师觉得这值得继续研究很多年,这是挑战一。

第二个挑战是公平性问题,公平性有两个方面:一个是用户端的公平性,一个是item端的公平性。用户端的公平性很简单,因为推荐不是人为的,而是算法因为数据、用户行为的差异,天然带来的不公平现象,这时应该思考怎么从系统的角度发现不公平性,然后给系统一些纠正。item的公平性也很重要,这一部分如果做得不好的话,可能内容生产者就离开了,进而带来生态系统的损失,没有了内容,也就没有了推荐。所以公平性问题也很重要的。

陈炜鹏老师对张敏老师的观点表示了认可,并补充到:企业推荐系统到最后还是要把内容呈现给用户,但推荐系统可能会出现低俗的内容获得更好的点击或者曝光等现象,而这对于整个内容生态的长期发展是非常不利的。现在产业界在想办法去平衡这种不公平的情况,因为解决不好将会影响整个推荐系统的潜力。此外,推荐系统中还存在短期评价跟长期评价之间的鸿沟,这个鸿沟其实也是一个非常困难的问题。

下一个里程碑是什么?

里程碑包含两个层面。

第一个是研究层面,因为最近几年大家对于认知的关注度比较高,张鹏老师认为下一个里程碑很有可能在研究层面基于认知科学出现一些成果,然后帮助我们把推荐做得更好。

第二个是应用层面。真正的个性化推荐系统可能会实现,它将常驻在用户的身边,而不是位于一个中心化的系统上。这样的话既能解决隐私的问题,又能够解决算力等问题。

Q&A

各位老师对推荐系统的什么问题或者什么方向最感兴趣?

程祥老师结合自己的研究领域,指出自己比较关注于如何在隐私约束下,去做一些推荐系统的核心算法,然后尽量让推荐的精度等指标不要掉得太厉害;以及推荐的公平性这个话题,这也是程祥老师团队在开展的一些工作。

整理:闫昊

排版:田雨晴

AI Time欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

 

AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

(点击“阅读原文”查看报告直播回放)

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值