1. 对推荐的大体感悟

前言

笔者是名半吊子算法工程师,毕业专业是物理类学科,标准半路出家。所以,基础薄弱,技术能力颇为捉急。到现在,从事推荐算法岗位也算有一段时日,勉强积攒了一些关于这一领域的浅显知识,不少还是谬误。因此,有空就来分享一下,共同交流,共同进步。错误之处,恳请大家不吝指出,感谢。

推荐是啥

推荐,可以简单近似认为,从可用资源中,选取合适的资源,提供给目标客户。从而,吸(hu)引(you)进行下单/点击/浏览…这一类的正向反应。
在这里插入图片描述
例如,假设你是个大帅比(漂亮),当你走进商场逛逛时,门店的工作人员自然会欢迎你:“帅哥(靓女),要看看这一款的皮鞋(包包)吗?”。毫无疑问,工作人员不会给帅比(漂亮)你推荐包包(皮鞋),尽管这些都是可以被推荐的资源,因为帅比绝大部分不喜欢包包,这么干的话,这个工作人员职业能力是有所欠缺的。(店长:“You are Fired!”)此外,如果该工作人员能够根据你的穿着,猜出你是有钱银,向你推荐较为高(ang)档(gui)的商品的话,这个就更给力了。
因此,推荐的效果看起来貌似是很有商业价值滴!因此,考虑到资本的逐利本能,推荐的痕迹处处皆可发现。从街道入口的纸质租房广告,到链家APP上的租房信息;从地铁轨道里的屏幕美食,到视频APP开始界面里的麦当当最新款套餐广告;从路边的健身房小传单,到网页里的“强壮身体”的弹窗小广告;从火车站出口的地铁路线图背后的旅游景点,到旅游APP里面的宾馆展示,可谓是无处不推荐。并且,结合大量历史数据和训练算法,可以获取推荐模型,实现自动化推荐,这个效果就更牛逼哄哄了…

推荐的作用和意义

很遗憾,尽管前一部分我吹嘘的是天花乱坠,其实是漏洞百出。虽然,合适的推荐是具有比较高的商业价值,但是,生意人们也不是傻子,简单的规则筛选,自然即可达到比较好的效果。比如,衣店冬天推冬衣,夏天推衬衫;微博推流量明星(基于人气从高往下排);短视频推荐大V。这些方法简单而有效,并且也易于实现,无需多少资源。广为盛传的推荐算法(这里是指机器学习、深度学习等),也并不比这些人工规则好上很多,提升原先的一半已经算是很理想的了。
也就是说,如果满分是100,规则(比较好的)的得分是50,那么推荐的得分顶多是75左右。因此推荐的作用是个“锦上添花”,是不能“雪中送炭”。推荐不是个圣杯,不能把它当万能机。
因此,考虑到企业的体量分布,大多数企业人工规则已经足够(事实上它们也是这么干的,顶多更细致一些,加上选项卡机制)。真正意义上的“大数据推荐”系统,对他们而言,成本远远高于“添花”(流量小,提升的转化量的绝对值很低)。所以,只有大流量的公司,有这个动力开发这个项目,比如某某某巴,某讯,某某某条…等等。这就好比,我的理财产品的利率提升了0.1%,对我这种只存了5万的穷逼而言,我顶多多赚了50块钱(实在是少),我自然会觉得这个提升没啥鸟用;但对于存款5千万的高富帅,他能多赚5万块(比我的多多了)。当然,某些创业公司,由于预期中的大流量的钱景,也会推进这类项目。
嗯啊,推荐本质上,是为了提高商家的利润,所以顶多是个服务于资本的工具,并不具有啥社会意义。如果觉得这份职业具有高贵光环的话,请再擦擦眼镜,别糊了。

搞推荐的平时要干啥

推荐的工作目的很明确,是为了提升上头确定的商业指标。但是,具体的工作就五花八门了。“算法工程师”这个职位,其实是“算法”和“工程”的混合体,前者是学术里的概念,但后者却是具体的工作。在国内公司里的“算法工程师”们,通常绝大部分时间都是在搞工程,而算法的占据部分,实在是微不足道。言归正传,他们主要的工作有:
1.整合落地数据。主要是清洗和关联,理出训练数据和测试数据,以及需要线上缓存的数据,定时写缓存。这部分工作的初始化比较麻烦,但主要就是体力活,框架搭建好之后,主要就是时不时检查一下问题,修修补补。
2.对线上、线下数据进行监控,时不时肉眼观察观察,尽量避免大坑。尽管很多时候,兄弟团队可能拍着胸脯和你保证数据绝对没问题,但我必须要说,这个是不可能的,绝对绝对绝对不要完全信任他人的工作!特别是和你不是同一个KPI的团队。懒惰是人的天性,这个需要切记。这边见过太多的惨痛案例,后端数据的重复、字段缺失、任务失败未重试,前段界面的“隐形”展示、版本更新不及时等等,常常屡见不鲜。
3.应对各方的质问,提供样例的实证。由于推荐的效果大部分是来自于推荐模型,所以当展示效果有“问题”时(为啥这个商品质量不咋的还放出来之类的),各方部门的产品经理、或者领导就常常会直接过来进行挑战(@你一下是常见操作)。考虑到这部分人群的优先级别,常常需要花半天时间,定位到这个问题,然后给出合理的解释,比如说这个商品历史点击率高,出价高,或者你经常看这类商品,等等。并且,挑战的时间经常是在下班前,从而,下班的时间就…呵呵了
4.和其他团队多沟通。基于对其他团队工作的依赖,没事多聊聊是非常有必要的,万一有求于人,或者是对方改了什么的,又忘记告诉你,那就尴尬了…
5.模型训练。这部分工作相对而言是比较简单直接,无需考虑太多的外界因素,主要就是基于监督标签确定具体的训练算法,超参,训练中的trick等等。它比较耗你的技术存储和脑力,但确实是你最具价值的部分。之所以把这部分工作放在后面再说,是因为,前面的工作才是主要的部分。值得一提的是,“好”的模型是需要综合考虑“效果”和“可解释性”的。由于3)中提到的各方的挑战,你需要基于模型给出合理的解释,好堵住他们的嘴。如果是复杂度很高的模型,很有可能会出现你也无法解释为啥会是这个结果。线上生产环境的应用模型,只有为数不多的公司敢于上完全版深度学习,个人觉得可能也是这方面的考虑。LR + GBDT的经典之处,个人觉得正在于是两者的综合。
6.线上实验。有一说一,线上的效果才是真正可以用来吹的干货,线下的工作干得再多再好,不顶用。
7.多汇报工作,加上适当的夸张。这个耗时不多,但确实是最重要的部分。领导们日理万机,谁还记得你具体干了啥,干到哪了?有点成果就汇报汇报,有空就整个漂亮的报告,图表一看,领导心里有点数了,给你的绩效评估也会写点赞扬的话。

推荐的技术含量

额…虽然大数据推荐是有些技术含量的(人工规则的技术含量就良萎不齐了,此处不作过多讨论),但是前端、后端、中台这些模块的技术含量也绝对不会比推荐模块低,有很多很多值得品味的细节。推荐模块绝对不是个单打独斗的项目,它需要用户界面上正确的展示,后台数据的完备落地、优良的清洗,监控界面的及时提醒,以及运维侧良好的维护。总而言之,它需要一群优秀的团队鼎力相助。
但是,为啥大数据推荐就这么热门呢?个人猜测,
1.推荐模块能够比较迅速的、立竿见影的提升转化率,这个是其他模块难以保证的。
2.推荐的技术原理比较偏学术,能够拿出来唬人。
3.推荐模块的学术上的改进,可以用来水论文。
4.推荐岗位薪水的整体水平貌似比较高。

后续部分

后续,会介绍一下互联网平台下,笔者比较了解的几类推荐,包括计算广告、电子小说、酒店查询等,以及相关的后台实现细节。
PS: 相关图片为网上搜集,若有侵权,通知删除。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值