本文列出推荐算法入门基础知识。每个知识点都能在网上找到更详细的讲解,适合入门者使用。学习是一个螺旋前进的过程,刚开始对各部分有个大概了解,然后做了一些项目后再回过头来对各个部分做深度理解。
一,基础
(1)大数据
大数据存储3件套:hdfs、hive、hbase
大数据处理:mapreduce,spark
(2)机器学习、深度学习
常用机器学习算法:LR、GBDT(xgboost)、聚类、FM
深度学习模型:DNN(word2vec)、CNN、RNN(LSTM)、Transformer
二,推荐算法
推荐整体流程包含如下3步:召回=》排序=》postrank
(1)召回
召回的作用选取用户可能感兴趣的内容,缩小内容范围,减少进入排序的内容条数。如果内容池整体条数不大(千级规模),可以不用召回,直接内容池全部进入排序。
召回主要分为以下几种类型
- 热门类召回
- cs 类召回: 根据用户各种画像tag召回
- cf协同类召回:itemcf、usercf、item2vec、node2vec、graph embedding
- u2i类召回: 根据user embedding召回相似item embedding,典型如youtubednn
(2)排序
排序包括粗排和精排,粗排是精排的简化版本,对召回数据进一步缩减,减少进入精排的内容条数
常用排序模型 gdbt+LR、deepFM、wide&deep
(3)postrank
postrank对精排后的feed做运营和人工规则的保量与提权
最后做多样性处理,目前常用的多样性算法有mmr和dpp
三,推荐书籍
理论类书籍:《机器学习》西瓜书; 《深度学习》 花书;
工具类书籍:《spark编程基础》 林子雨著, tensorflow cookbook
项目类书籍: 《推荐系统实践》,《深度学习推荐系统》,《百面机器学习》 ,《精通数据科学》