面试总结

最新推荐文章于 2018-08-24 09:14:14 发布

grimm_chen

最新推荐文章于 2018-08-24 09:14:14 发布

阅读量291

点赞数

本文链接：https://blog.csdn.net/chengl920828/article/details/69460916

版权

 
 阿里妈妈 

  一面 

 
 1、介绍推荐的论文 

 
 2、大数据环境下，业界怎么做的推荐 

 
 3、推导SVM 

 
 4、100万个数怎么查询每个数出现的次数 

 
 5、单向链表和双向链表的差别 

 
 6、总共3000人，五十个面试官，每人有60个面试成绩，怎么选出600人进复试，现实可行的 

 
 7、算法题： 

  （1）反转字符串 

  （2）中文拆词，匹配最大的短语，词最大长度为8，每个汉字占两个字节（注意越界问题） 

  （3）中文拆词加条件，中文字里可能有英文字符标点符号等 

  （4）处理文本，500M的文本，里面只有数字，每一行数字间用空格隔开，怎么统计里面每个数字出现的次数（要写读文本命令） 

 
 8、有什么想问想了解的嘛 

  答：阿里妈妈这个部门具体是要做一些什么工作 

  二面 

 
 1、自我介绍 

 
 2、印象最深的一个项目 

 
 3、入侵检测的特征 

  CPU利用率，内存利用率，文件校验和 

 
 4、新来的一种入侵类型如何用之前的模型判别，要注意哪一些特征，举几个具体的特征 

  CPU利用率，内存利用率，文件校验和 

  异常检测法，就是训练一个正常的模型，只要新的连接不满足模型则判为异常，漏报率低，误报率高 

  误用检测法，先要将所有可能发生的不利的不可接受的行为归纳建立一个模型，凡是访问者符合这个模型的行为将被断定为入侵。漏报率高，误报率低。 

 
 5、入侵检测技术的难点关键点 

 
 6、我所用的入侵检测方法最有效的改进在哪 

 
 7、如何进行的特征选取 

 
 8、推荐的技术难点和主要技术点 

 
 9、推荐可能用到的特征 

 
 10、计算相似度的指标有哪些 

 
 11、怎么做的推荐 

 
 12、LR为什么要离散化的特征，要是连续的要怎么处理 

 
 A: 
  在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点： 

 
 0、 离散特征的增加和减少都很容易，易于模型的快速迭代。(离散特征的增加和减少，模型也不需要调整，重新训练是必须的，相比贝叶斯推断方法或者树模型方法迭代快) 

 
 1、稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展； 

 
 2、 
 离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30 
 是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；离散化后年龄300岁也只对应于一个权重，如果训练数据中没有出现特征"年龄-300岁"，那么在LR模型中，其权重对应于0，所以，即使 
 测试 
 数据中出现特征"年龄-300岁",也不会对预测结果产生影响。特征离散化的过程，比如特征A，如果当做连续特征使用，在LR模型中，A会对应一个权重w,如果离散化，那么A就拓展为特征A-1，A-2，A-3...,每个特征对应于一个权重，如果训练样本中没有出现特征A-4，那么训练的模型对于A-4就没有权重，如果测试样本中出现特征A-4,该特征A-4也不会起作用。相当于无效。但是，如果使用连续特征，在LR模型中，y = w*a,a是特征，w是a对应的权重,比如a代表年龄，那么a的取值范围是[0..100]，如果测试样本中,出现了一个测试用例，a的取值是300，显然a是异常值，但是w*a还是有值，而且值还非常大，所以，异常值会对最后结果产生非常大的影响。 

 
 3、 
 逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N 
 个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；在LR模型中，特征A作为连续特征对应的权重是Wa。A是线性特征，因为y = Wa*A,y对于A的导数就是Wa,如果离散化后，A按区间离散化为A_1,A_2,A_3。那么y = w_1*A_1+w_2*A_2+w_3*A_3.那么y对于A的函数就相当于分段的线性函数，y对于A的导数也随A的取值变动，所以，相当于引入了非线性。 

 
 4、 离散化后可以进行特征交叉，加入特征A 离散化为M个值，特征B离散为N个值，那么交叉之后会有M*N个变量，进一步引入非线性，提升表达能力； 

 
 5、 
 特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30 
 作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问；按区间离散化，划分区间是非常关键的。 

 
 6、特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。(当使用连续特征时，一个特征对应于一个权重，那么， 
 如果这个特征权重较大，模型就会很依赖于这个特征，这个特征的一个微小变化可能会导致最终结果产生很大的变化，这样子的模型很危险，当遇到新样本的时候很可能因为对这个特征过分敏感而得到错误的分类结果，也就是泛化能力差，容易过拟合。而使用离散特征的时候，一个特征变成了多个，权重也变为多个，那么之前连续特征对模型的影响力就被分散弱化了，从而降低了过拟合的风险。 
 ) 

 
 李沐曾经说过：模型是使用离散特征还是连续特征， 
 其实是一个“ 
 海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。既可以 
 离散化用线性模型，也可以用连续特征加 
 深度学习 
 。就看是喜欢折腾特征还是折腾模型了。通常来说，前者容易，而且可以n个人一起并行做，有成功经验；后者目前看很赞，能走多远还须拭目以待。 

 
 京东 

  1 只有 商品的历史销量数据，，如何预测今天的销量 ： 时间序列预测， 

  2 给一个广告位，一堆人竞标，，每1000个查询或者点击，，都会重新竞标， 

  投标价格最高的人中标， 实际支付的广告费是 第二高的竞标价格，，请用增强学习建模 一个商家的竞标策略， 

  3 画出常用的损失函数， 是否修改过，，加权求和之类的，， 神经网络如何改造，能够结合svm的优势 （ 倒数第二层 合页函数，然后后面接一层softmax,） 

  4 adaboost 和rf 同样深度，同样叶子节点数目 ， 谁的bias大，谁的variance大， 

grimm_chen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
面试总结

阿里妈妈一面1、介绍推荐的论文2、大数据环境下，业界怎么做的推荐3、推导SVM4、100万个数怎么查询每个数出现的次数5、单向链表和双向链表的差别6、总共3000人，五十个面试官，每人有60个面试成绩，怎么选出600人进复试，现实可行的7、算法题：（1）反转字符串（2）中文拆词，匹配最大的短语，词最大长度为8，每个汉字占两个字节（注意越界问题）（3）中文
复制链接

扫一扫