个人总结—工作面笔试问题—截止20190402

本文将记录在找工作中遇到的面试、笔试问题,以供他人参考与自己思考总结,如果有问题,可以留言与我沟通!

  1. 20190314—阿里小蜜—NLP算法实习生—电话面试—跪了
    这次应该是简历面试,问的问题都是简历上写的,问的深度也不是很深,就是在项目中使用过的东西,所以简历不要编,实事求是。这次面试在晚上突然一个电话来了,说要聊聊,没有准备啥就直接上了,还不知道结果。

    1. 自我介绍
    2. 简历中写的分类器算法,说下最熟悉的,最常用的几种(SVM、GBDT、XGboost)
    3. GBDT 、XGboost有什么异同
    4. 在实际项目中那个分类器效果好,那种情况用那个分类器
    5. 文本分类问题中常用的算法是什么,那个步骤最重要(我回答的是特征工程与数据预处理)
    6. 常用的深度学习模型是啥,有啥异同
    7. word2vec和glove的区别和联系,原理是啥
    8. word2vec的数学原理是啥(我没回答好,在空间中的两个点距离越近,意义重复度越高)
    9. 深度学习的小数据量如何解决过拟合(https://www.cnblogs.com/eilearn/p/9203186.html)
    10. word2vec中一词多义问题如何处理(https://www.cnblogs.com/huicpc0212/p/4389326.html)
    11. 项目中使用的新模型讲解。
    12. 多层Attention机制使用
  2. 20190327—健康有益—NLP实习生—180/天
    在拉钩上应聘的一家小公司的NLP工程师实习,初面有三个人,一个技术组长,大小两个主管,重点就是技术组长问的技术问题,大概30分钟,先做了一个笔试题,然后在面试的。

    1. 项目流程,具体的项目做法(存在问题,解决方法)
    2. SVM基本原理,如何处理线性不可分问题,引入核函数的原因,解决多分类问题,对缺失值是否敏感
      (https://www.jianshu.com/p/fa02098bc220)
    3. word2vec的两种是宪法方法,原理和区别,项目中的使用(gensim)
    4. 深度学习中batch的作用机制
      (https://www.cnblogs.com/demo-deng/p/10189630.html)
      在这里插入图片描述
    5. 激活函数有哪些及特点
      https://blog.csdn.net/tyhj_sf/article/details/79932893)
    6. 过拟合解决方案
      https://www.cnblogs.com/eilearn/p/9203186.html)
    7. NLP中的CNN使用
      http://www.52nlp.cn/tag/textcnn)
    8. LSTM 与GRU模型详解,模型中激活函数作用 LSTM中的激活函数
    9. 在NLP中停用词处理
    10. 深度学习调参
    11. embdding 大小(自己训练的?)
  3. 20190329—布莱恩科技—NLP实习生—通过初面—300/天

    1. LSTM +crf 原理
    2. word2vec的向量长度(为什么),gensim训练时间,
    3. 分词工具,用的哪个工具,用的那种模式,三种模式的区别和联系
      https://www.zhihu.com/search?type=content&q=jieba 分词模式)
    4. gensim中判断词向量好坏?
      https://blog.csdn.net/hh12211221/article/details/64124692)
      (Word2Vec 的训练属于无监督模型,并没有太多的类似于监督学习里面的客观评判方式,更多的依赖于端应用。Google 之前公开了20000条左右的语法与语义化训练样本,每一条遵循A is to B as C is to D这个格式,地址在这里:)
      (https://www.zhihu.com/question/37489735)
    5. glove 原理(SVD分解)
      https://www.zhihu.com/search?type=content&q=glove )
    6. 在SVD中用了 gradienti ascent
      
    7. 输入的batch_size,epoch,保存最佳模型(每一个epoch),怎么得到最优的模型,
      对于大语聊:定义一个lambda layer,就是个函数,去掉model.save,得到当时的loss,accuracy,但是时间长
      对于小语聊:切割语料为training,validation,在每个epoch中用trian训练模型,在validation中计算得到loss,得到最佳的loss迭代次数,在所有的epoch结束后,用整个语料计刚才得到的最佳代数。
    8. LSTM的block形式
      https://blog.csdn.net/pipisorry/article/details/78361778
    9. 在网络计算中,两个向量的耦合有三种方式,按位加(经典LSTM、残差网络),contact、按位乘(inception net),三种方式没有明显差别
    10. transformer 做词向量和word2vec做词向量区别和联系,长依赖(在哪????)
      https://blog.csdn.net/chunyun0716/article/details/83660390)
    11. seq2seq模型
    12. nmt中的attention
      (https://blog.csdn.net/hahajinbu/article/details/81940355)
  4. 20190401—厦门渊亭科技—NLP实习生(科研岗)—6500/月

    1. 如何解决数据分布极其不平衡的二分类问题
      https://blog.csdn.net/zhangbaoanhadoop/article/details/82154909
      http://www.chuangxin.com/index.php/home/aboutus/news_detail/id/289.html
    2. KNN 和K-means的相似点和区别
      在这里插入图片描述
    3. 逻辑回归中同时加入L1和L2有什么效果?
      https://zhidao.baidu.com/question/1498836154468709979.html)
    4. 常用的聚类算法
      https://blog.csdn.net/u010062386/article/details/82499777
    5. GBDT 和XGboost的区别?
      https://www.cnblogs.com/fujian-code/p/9018114.html)
    6. 参数网格搜索的基本工作流程
      (https://blog.csdn.net/xiachong27/article/details/82154825)
    7. 数据特征重要性探索
      
    8. FP growth
      
    9. 朴素贝叶斯回归在条件概率为0时
      在这里插入图片描述
    10. F1值的公式
      (https://blog.csdn.net/sinat_28576553/article/details/80258619 )
    11. TF-IDF、NNLM
      https://blog.csdn.net/nemoyy/article/details/80603438
      https://baike.baidu.com/item/tf-idf/8816134?fr=aladdin
    12. 当分类数目太多时,降低FC(全连接)层权重数量:GAP(全局平均池化层)
      https://blog.csdn.net/duanyajun987/article/details/82108006
      https://blog.csdn.net/u011021773/article/details/78121359
    13. LSTM 如何解决梯度爆炸,LSTM仍然发生了梯度爆炸如何解决?
      https://blog.csdn.net/zhangbaoanhadoop/article/details/81807538
  5. 20190402—奥德塔数据科技—大语聊NLP处理实习生—330/天

    1. KNN流程
    2. 常见聚类
    3. 如何处理异常值和噪声
      https://blog.csdn.net/jyxmust/article/details/80659324
    4. 一句话介绍卷积
      https://blog.csdn.net/weixin_42137700/article/details/82770243
    5. 如何找到K-means的初始点
      https://blog.csdn.net/liuxf1993/article/details/79855460
    6. 那些机器学习算法不需要数据归一化
      https://blog.csdn.net/jonyhwang/article/details/80983468
    7. python的可变对象和不可变对象
      ( https://www.cnblogs.com/sun-haiyu/p/7096918.html )
    8. python 进程线程协程
      https://blog.csdn.net/mike_shine/article/details/80938112
    9. 欧式距离和马氏距离
      https://blog.csdn.net/u010167269/article/details/51627338
      https://blog.csdn.net/Kevin_cc98/article/details/73742037
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值