数据挖掘
cyong888
这个作者很懒,什么都没留下…
展开
-
团-搜索-面20201230
团-搜索-面 文本分类:样本失衡,如何解决 focalloss的原理是什么? 具体使用如何做? 向量召回 :一般有哪些方法? facebook的 faiss的原理是什么? bert 为什么比lstm好? selfattention的原理 bert 比 transform还多哪些东西? 完形填空部分,训练的是什么? ...原创 2020-12-31 11:19:19 · 80 阅读 · 0 评论 -
美团外卖/滴滴20201225面试
1. ANN的原理,即向量召回的原理 2. gbdt的原理,最好能涉及到公式的维度 3. gbdt 如何优化变快 4.原创 2020-12-25 19:05:07 · 127 阅读 · 0 评论 -
2020-数据挖掘面试题
1. 大数据方向 1.1 hive 的技巧: 小表放在前面,大表放在后面,这叫 mapjoin,与其对应的是 common join 1.2 当出现 数据倾斜,怎么解决 a.出现数据倾斜的原因: 在map阶段相同的key 会放在一个reducer中,此时可以说一下 shuffle b.如何解决? 可以通过增加随机数,让相同的key 分配到不同的reduce上;也可以通过其它方法 https://blog.csdn.net/anshuai_aw1/article/deta...原创 2020-11-30 18:14:45 · 106 阅读 · 0 评论 -
Nlp面试题-互联网
微信,头条,快手的nlp面的问题 1 lstm 是为了解决rnn的什么问题而提出的,他是如何解决的? 2 模型优化器 都有哪些?最好的是哪个?它好在哪里? Adam 动态调节学习率 3 序列标注里面的 crf是用来干嘛的?它的作用是什么?它是为了解决哪一类case 而出现的? 4 loss ,尝试过修改loss 吗? 5 attention的原理是什么?它学的是什么? ...原创 2020-01-09 22:47:08 · 391 阅读 · 0 评论 -
正则化-L1-L2
为了防止训练的模型过拟合,则提出了一种结局办法,就是损失函数里面加入正则化 正则化有2个: L1 = ||Wj|| 相加 L2=||Wj的平方||相加 对比: 1.L1容易产生稀疏矩阵,所谓参数变得更稀疏 是指会有更多的参数变为0,这样可以达到类似特征选取的功能 2.L1 不可导,计算更复杂;L2可导,计算更加简洁。 在实践中,这两个可以一起使用 ...原创 2019-07-16 17:49:21 · 98 阅读 · 0 评论 -
dnn反向传播推导
手工推导如下原创 2019-10-10 16:33:03 · 124 阅读 · 0 评论