推荐，NLP算法面试总结

最新推荐文章于 2022-11-05 15:06:28 发布

东城地瓜

最新推荐文章于 2022-11-05 15:06:28 发布

阅读量260

点赞数

分类专栏：推荐

本文链接：https://blog.csdn.net/weixin_39422563/article/details/108479995

版权

推荐专栏收录该内容

9 篇文章 2 订阅

订阅专栏

                    
                        
                    
                    凸优化问题相关：二阶导为0就是凸函数，凸函数没有局部最优，局部最优即是全局最优，典型的就是逻辑回归，凸优化问题可以用简单的梯度下降达到全局最优，例如sgd。但是神经网络肯定不是，所以需要更好的优化器去求解，避免陷入局部最优解，这也是神经网络两次训练基本不会得到相同的结果的原因，因为局部最优解很多，参数初始化的不一样就会导致陷入不同的局部最优解
冷启动问题：新用户可以推荐热门物品，或者高转化物品，新物品可以按相似物品去推荐，对新用户或者新物品的ctr预估是有偏的，因为系统的后验知识不够，这个阶段需要试探。
连续值特征的分桶：算皮尔逊相关系数
协同过滤：计算杰卡德距离拿到相似度，再取topK相似用户，再打分，分值就是用户相似度和相似用户的喜欢程度的乘积；在这基础上，可以对热门物品加上一个惩罚因子，因为热门物品的同一行为相对来说价值更低。
为什么要用逻辑函数：二分类问题在线性回归上的应用，概率分布式伯努利分布，根据概率密度函数推导出来的
最小二乘法的原理：线性回归的理论基础是 y=h(x)+e；e是误差符合高斯分布，即正态分布，带入概率密度函数，根据最大似然可以得到
adam优化器：动量原理，每次会根据当前的动量和梯度算出需要下降的梯度，然后每一步会有一定的衰减，当前时间步的动量就是上个时间步衰减的结果。
ftrl算法：其实就是累计梯度做梯度，外加第一第二正则，可以保证特征的稀疏性和噪音导致的偏离；优点：反应迅速，稀疏性，鲁棒性
dssm结构训练：为什么要用cos距离，向量分解，当然是和现在的向量重合越多越好，垂直方向越小越好；用dssm结构是为了和使用的时候保持一致，无损应用；为什么不用欧几里得距离等
bert的结构：fuse_emb=emb+pos_emb；W=Q.K contex=W.V；残差网络保证可以多层嵌套，同时加快模型收敛，便于梯度向后传递；batch_normal让模型训练更快，让值分布在激活函数的敏感区域，增加梯度。多头机制，多个弱分类器组成一个强的；
搜索sug词表生成：品类打散，打分的时候注意作弊用户，比如只有一两天有转化，而且很多；加上转化天数这个特征；时间衰减；工程代码实现：建立搜索树
搜索指标的评估：人工看最好，其次点击率+时长
F1值，调和平均数，同时兼顾两个指标的时候
FM算法：公式，因式分解，特征组合
用户画像的建立：日志收集，模型预估，问卷调查，社交关系
bert的相关扩展：百度的ernie，知识图谱加词mask；阿里的structBert，预训练任务预测字的顺序，先打乱，预测句子的顺序
说出至少两种距离（余弦，海明，欧几里得，曼哈顿），至少两种优化器，若干种loss函数
lstm三个门的作用
lstm和普通rnn相比：除了三个门的机制，还有防止梯度消失，让梯度能更好的传递到前面的时间步
用户的兴趣点特征如何应用到模型，除了聚类这种分类和embedding和one-hot，还有什么端到端的方法，兴趣点会有数十万；方法，用户兴趣和物品做交叉，比如用兴趣是否命中当前物品作为一个特征

                

东城地瓜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
推荐，NLP算法面试总结

凸优化问题相关：二阶导为0就是凸函数，凸函数没有局部最优，局部最优即是全局最优，典型的就是逻辑回归，凸优化问题可以用简单的梯度下降达到全局最优，例如sgd。但是神经网络肯定不是，所以需要更好的优化器去求解，避免陷入局部最优解，这也是神经网络两次训练基本不会得到相同的结果的原因，因为局部最优解很多，参数初始化的不一样就会导致陷入不同的局部最优解冷启动问题：新用户可以推荐热门物品，或者高转化物品，新物品可以按相似物品去推荐连续值特征的分桶：算皮尔逊相关系数协同过滤：计算杰卡德距离拿到相似度，再取topK.
复制链接

扫一扫