数据挖掘
cyong888
这个作者很懒,什么都没留下…
展开
-
团-搜索-面20201230
团-搜索-面文本分类:样本失衡,如何解决focalloss的原理是什么?具体使用如何做?向量召回 :一般有哪些方法?facebook的 faiss的原理是什么?bert 为什么比lstm好?selfattention的原理bert 比 transform还多哪些东西?完形填空部分,训练的是什么?...原创 2020-12-31 11:19:19 · 90 阅读 · 0 评论 -
美团外卖/滴滴20201225面试
1. ANN的原理,即向量召回的原理2. gbdt的原理,最好能涉及到公式的维度3. gbdt 如何优化变快4.原创 2020-12-25 19:05:07 · 146 阅读 · 0 评论 -
2020-数据挖掘面试题
1. 大数据方向1.1 hive 的技巧: 小表放在前面,大表放在后面,这叫 mapjoin,与其对应的是 common join1.2 当出现 数据倾斜,怎么解决 a.出现数据倾斜的原因: 在map阶段相同的key 会放在一个reducer中,此时可以说一下 shuffle b.如何解决? 可以通过增加随机数,让相同的key 分配到不同的reduce上;也可以通过其它方法https://blog.csdn.net/anshuai_aw1/article/deta...原创 2020-11-30 18:14:45 · 133 阅读 · 0 评论 -
Nlp面试题-互联网
微信,头条,快手的nlp面的问题1 lstm 是为了解决rnn的什么问题而提出的,他是如何解决的?2 模型优化器 都有哪些?最好的是哪个?它好在哪里? Adam 动态调节学习率3 序列标注里面的 crf是用来干嘛的?它的作用是什么?它是为了解决哪一类case 而出现的?4 loss ,尝试过修改loss 吗?5 attention的原理是什么?它学的是什么?...原创 2020-01-09 22:47:08 · 433 阅读 · 0 评论 -
正则化-L1-L2
为了防止训练的模型过拟合,则提出了一种结局办法,就是损失函数里面加入正则化正则化有2个:L1 = ||Wj|| 相加L2=||Wj的平方||相加对比:1.L1容易产生稀疏矩阵,所谓参数变得更稀疏 是指会有更多的参数变为0,这样可以达到类似特征选取的功能2.L1 不可导,计算更复杂;L2可导,计算更加简洁。在实践中,这两个可以一起使用...原创 2019-07-16 17:49:21 · 109 阅读 · 0 评论 -
dnn反向传播推导
手工推导如下原创 2019-10-10 16:33:03 · 140 阅读 · 0 评论