7.20-7.26 字节推荐算法(DATA-EDU)5道面试题分享

本文分享了字节跳动推荐算法面试中的5道题目,涉及BERT蒸馏、稀疏特征处理、逻辑回归、分类损失函数选择以及BERT与RoBERTa的差异。对于稀疏特征,推荐使用带正则化的LR防止过拟合;在分类中,交叉熵损失优于MSE,因为其梯度更新更快。
摘要由CSDN通过智能技术生成

文末彩蛋:七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》免费送!

1、bert蒸馏了解吗

知识蒸馏的本质是让超大线下teacher model来协助线上student model的training。

bert的知识蒸馏,大致分成两种。

第一种,从transformer到非transformer框架的知识蒸馏

这种由于中间层参数的不可比性,导致从teacher model可学习的知识比较受限。但比较自由,可以把知识蒸馏到一个非常小的model,但效果肯定会差一些。

第二种,从transformer到transformer框架的知识蒸馏

由于中间层参数可利用,所以知识蒸馏的效果会好很多,甚至能够接近原始bert的效果。但transformer即使只有三层,参数量其实也不少,另外蒸馏过程的计算也无法忽视。

所以最后用那种,还是要根据线上需求来取舍。

2、给你一些很稀疏的特征,用LR还是树模型

参考:很稀疏的特征表明是高维稀疏,用树模型(GBDT)容易过拟合。建议使用加正则化的LR。

假设有1w 个样本, y类别0和1,100维特征,其中10个样本都是类别1,而特征 f1的值为0,1,且刚好这10个样本的 f1特征值都为1,其余9990样本都为0(在高维稀疏的情况下这种情况很常见),我们都知道这种情况在树模型的时候,很容易优化出含一个使用 f1为分裂节点的树直接将数据划分的很好,但是当测试的时候,却会发现效果很差,因为这个特征只是刚好偶然间跟 y拟合到了这个规律,这也是我们常说的过拟合。但是当时我还是不太懂为什么线性模型就能对这种 case 处理的好?照理说 线性模型在优化之后不也会产生这样一个式子:y = W1f1 + Wifi+….,其中 W1特别大以拟合这十个样本吗,因为反正 f1的值只有0和1,W1过大对其他9990样本不会有任何影响。

现在的模型普遍都会带着正则项,而 lr 等线性模型的正则项是对权重的惩罚,也就是 W1一旦过大,惩罚就会很大,进一步压缩 W1的值,使他不至于过大,而树模型则不一样,树模型的惩罚项通常为叶子节点数和深度等,而我们都知道,对于上面这种 case,树只需要一个节点就可以完美分割9990和10个样本,惩罚项极其之小.

这也就是为什么在高维稀疏特征的时候,线性模型会比非线性模型好的原因了:带正则化的线性模型比较不容易对稀疏特征过拟合。

3、LR的损失函数推导

逻辑回归损失函数及梯度推导公式如下:
在这里插入图片描述

4、为什么分类用交叉熵不用MSE(从梯度的角度想一下)

LR的基本表达形式如下:
在这里插入图片描述
使用交叉嫡作为损失函数的梯度下降更新求导的结果如下:首先得到损失函数如下︰
在这里插入图片描述
如果我们使用MSE作为损失函数的话,那损失函数以及求导的结果如下所示∶
在这里插入图片描述

使用平方损失函数,会发现梯度更新的速度和sigmod函数本身的梯度是很相关的。sigmod函数在它在定义域内的梯度都不大于0.25。这样训练会非常的慢。使用交叉嫡的话就不会出现这样的情况,它的导数就是一个差值,误差大的话更新的就快,误差小的话就更新的慢点,这正是我们想要的。

在使用Sigmoid 函数作为正样本的概率时,同时将平方损失作为损失函数,这时所构造出来的损失函数是非凸的,不容易求解,容易得到其局部最优解。如果使用极大似然,其目标函数就是对数似然函数,该损失函数是关于未知参数的高阶连续可导的凸函数,便于求其全局最优解。(关于是否是凸函数,由凸函数的定义得,对于一元函数,其二阶导数总是非负,对于多元函数,其Hessian矩阵(Hessian矩阵是由多元函数的二阶导数组成的方阵)的正定性来判断。如果Hessian矩阵是半正定矩阵)

5、BERT和Roberta的区别

RoBERTa模型在 Bert模型基础上的调整︰

  • 训练时间更长,Batch_size更大,(Bert 256,RoBERTa 8K)
  • 训练数据更多(Bert 16G,RoBERTa 160G)
  • 移除了NPL (next predict loss)
  • 动态调整Masking 机制
  • Token Encoding:使用基于bytes-level 的 BPE

简单总结如下:
在这里插入图片描述

评论区回复 “121”,七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》,免费送!

持续无限期更新大厂最新面试题,AI干货资料,目前干货组汇总了今年3月-6月份,各大厂面试题。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值