1. 数组的排列组合输出,譬如数组的值为123,那么输出为:123 132 213 231 321 312
2. 编辑距离的算法
这个要用到 动态规划,需要多看看
3. Top K的问题,当有一个数组 里面有很多值N个,我希望选出top K个值。
3.1 思路 先排序,这样可以,不过时间复杂度很高
3.2 建立小堆。
3.2.1 给N个值建立 小堆,此时时间复杂度是 K * logN。
3.2.2 给前面K个值建立小堆,然后 N-K的数字依次进入这个小堆,最后堆留下的就是K个最大的值。 时间复杂度是 (N-K)* logK
4. bert 为什么 比 lstm效果好?
可以从self attention 、multi-head等方向去解释
5. bert 训练语义匹配的时候,如果 需要增加额外的特征,如何增加,如何参与训练
https://zhuanlan.zhihu.com/p/81895505
https://zhuanlan.zhihu.com/p/52169807
https://zhuanlan.zhihu.com/p/58703018
6. hadoop里面的yarn的会根据机器的配置不同,譬如 cpu、内存、存储等资源不同而分配不同大学的 mapper。那么是根据哪个的不同呢?
答:内存
7. 当有一个文件里面有2列 ,一列是query的名字,第二列是pv的大小,那如何通过hadoop从pv的角度随机选取1条或者 几条query出来?
query | pv |
天空为什么是蓝色的 | 100 |
如何拨栗子 | 15 |
8. 梯度下降 使用负梯度的原因是什么?
9. gbdt的的loss用的什么? 可以是交叉熵么?为什么
10. bert是子力度,为什么效果也很好?字粒度切词 和 term 粒度切词相比,优势在哪里