学管理的推荐系统小白
无所为而为
本文为个人学习笔记,观点仅供参考
推荐系统
参考项亮老师的推荐系统一书的定义:
推荐系统的基本任务是联系用户和物品,解决用户信息过载问题。
对推荐系统进行技术上的断代——特征处理维度(参考董振华老师的讲座)
1.第一代技术——CF协同过滤技术——核心思想是关联推荐
流行时间从1992年到2010年,2010年后,很少作为单独的一门推荐算法出现,但是其关联推荐的思想已被大家所接受,后续许多模型的改进都是在该思想的基础之上做出来的。
其中衍生出的KNN(k近邻)、MF(矩阵分解技术)、SVD/SVD+(奇异值分解:能够大幅降低特征维度,提高模型学习和预计的效率)等技术
缺点:冷启动;优点:可解释性
2.第二代技术——高维稀疏线性模型——LR模型(logistic regression模型)
流行时间从2009-2015年左右,实际上可能更短,后续常作为深度学习部分的某一部分出现,如Wide & Deep的Wide部分。
2009年,baidu的凤巢系统使用LR模型
2013年,Google应用的FTRL(Follow-the-regularized-Leader)对LR模型这类带有非光滑正则化项的凸优化问题上做出了改进
特征工程是人工做的,处理的一阶特征
优点:引入属性特征,缓解冷启动问题
缺点:需要大量人工处理特征工程,且维度高
**3.第三代技术——FM(factorization machines)/因子模型 **
流行时间从2011到2015年左右,后续同样被并入深度学习模型,作为深度推荐模型中的一部分。如DeepFM其中有一个部分就是使用了FM模型进行特征交叉。
2011年,Rendle提出的
主要思路是做特征组合,例如,华为应用市场能够饭点推荐美团,关注ESPN的人通常喜欢NIKE等进行特征组合推荐
优点:实现特征自动二阶组合
缺点:无法对高阶特征自动组合
4.第四代技术——深度学习(deep learning)
2015年来,深度学习技术飞速发展,推荐系统从此进入深度学习时代,Wide & Deep, DeepFM, NCF, DIN等等模型相继出现。
主要思路就是实现高阶特征自动交互——前三代技术做不到的事情
解决的具体问题:多任务模型:优化点击率,阅读时长;反事实模型:位置偏置,选择偏置;多模态模型:图文影音多模态信息利用;强化学习模型:动态自适应决策。
上图出自华为董振华老师讲座
工业界的推荐:(参考美团的推荐模型)
上图出自美团技术团队的推荐系统实践博客。
下面说说信息管理领域对推荐系统的研究。
信息管理和计算机交叉领域中对推荐系统较关注的期刊——《Expert Systems with Applications》、《Knowledge-Based Systems》、《IEEE Transactions on Knowledge and Data Engineering》
笔者大概阅读了约30篇左右这三本期刊上的关于推荐系统的论文。
个人觉得大致的工作如下:
通常是把一个现成的计算机界的算法拿到新的领域,然后在新的领域传统的算法可能需要一些改进,比如,增加共识达成过程CRP,比如增加隐式反馈等等操作。 他们在技术上的创新性是没那么显著的(部分专业的计算机专业学者发表的论文除外),所以通常是在模型上做微调,在信息收集方法上做微调,增加社交因素,信任因素等。
目前的想法还很肤浅,本文只用于记录自己大半年来的学习体会。