字节算法岗实习面经

字节算法岗实习面试
(1)详细介绍LR
(1)LR 在其他模型,比如深度学习上有什么应用 在深度学习上的一个组件上会怎么应用
应该回复的是 多个特征 通过sigmoid函数输出概率
(2)交叉熵解决的是什么问题? 以及如何推倒交叉熵
(3)交叉熵和MSE有什么区别
这个好说 在LR上如果用MSE的话 会导致;传播的时候 的梯度值跟sigmoid相关,而sigmoid最大值只有0.25 并且当数据分布处在很大值或者很小值的时候,梯度值近似0,从而导致梯度消失这个问题。
(4)讲一下梯度消失是一种什么样的情况
深层网络中,采用了不合适的损失函数,比如sigmoid
解决方案:
1 换激活函数 换成relu
2. BN,拉回敏感区域
3. 加上残差结构
(5)讲一下梯度爆炸又是什么情况
梯度爆炸一般出现在深层网络和权值初始化值太大的情况下,由于链式反应,导致梯度值越来越大。
解决方案是:
1.梯度剪切这个方案主要是针对梯度爆炸提出的,其思想是设置一个梯度剪切阈值,然后更新梯度的时候,如果梯度超过这个阈值,那么就将其强制限制在这个范围之内。这可以防止梯度爆炸
2. 另外一种解决梯度爆炸的手段是采用权重正则化
3. Relu:思想也很简单,如果激活函数的导数为1,那么就不存在梯度消失爆炸的问题了,每层的网络都可以得到相同的更新速度,relu就这样应运而生
(6)有什么办法可以解决这个梯度爆炸的问题/ 梯度消失的问题
1.合适的激活函数
2. 添加Batch Normalization
3. 网络宽度深度变小
(7)BN和LN的区别
(8)dropout解决梯度消失具体有什么的好处?
(9)本质上 dropout为什么可以解决过拟合呢
1.多个模型共同作用,避免极端模型的出现
2. 减少参数的互相依赖
(10)聚类算法了解吗 kmeans和KNN的区别
(11)把kmeans的完整流程说一次,这个细节答错了。

后面就是一道概率题,概率题是54张牌分两份,两张王在同一份的概率。概率题我给了传统的答案,然后面试官要求我说另外一种简单的答案,当时完全没想出,简单的方法是什么。就一直问我,要我说出简单的方法是什么。

然后还有一道算法题 遍历二叉树的所有数。
算法题这里其实可以延伸到前序遍历、中序遍历、后序遍历以及逐层遍历。以及每种遍历都有 递归法和非递归法。但我当时没想到要说,只说了其中一种最简单的逐层遍历。›

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

jianafeng

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值