算法面经阿里篇

CxFt

已于 2022-10-26 12:54:27 修改

阅读量623

点赞数

分类专栏：算法面经（20余中大厂）文章标签：机器学习深度学习自然语言处理 nlp 面经

于 2022-10-11 11:16:13 首次发布

本文链接：https://blog.csdn.net/weixin_43499457/article/details/127259903

版权

算法面经（20余中大厂）专栏收录该内容

16 篇文章 3 订阅

订阅专栏

本文分享了在阿里实习的面试经历，涉及机器学习、深度学习和自然语言处理相关问题。包括词袋模型、BERT结构、位置编码训练、序列到序列模型、知识蒸馏和对抗训练等，还涵盖了数据处理、模型优化和预训练模型的理解。同时，文章讨论了面试中遇到的K-means聚类、文本相似度计算和模型应对数据不平衡的方法。

摘要由CSDN通过智能技术生成

部门1实习一面
1.介绍robert
2.了解啥分类方法
3.怎么处理连续型数据怎么离散化
4.为什么要分训练集测试集验证集
5.词袋模型怎么解决某个词只在一篇文章多次出现
6.词袋和bert的区别
7.了解啥机器学习方法
8.bert结构
9.bert 位置编码咋训练的
10.transform和attention的区别
11.lstm怎么拿到顺序信息
12.怎么处理数据归一化标准化

部门2实习一面
1.交叉熵和KL散度
2.对话模型的衡量指标
3.seq2seq在训练和预测的时候有什么区别，训练和预测的时候decoder的时候的输入有什么区别。训练teacher forcing；预测输入前一状态。
4.beam search
5.怎么确定训练的时候teacher forcing和预测输入前一状态的比重
6.transformer和RNN CNN
7.预训练模型是语言模型吗？
8.语言模型的定义
9.Bert和语言模型的异同
10.encoder decoder层很深，怎么保证信息从输入到输出的传递：归一化；LN
11.LN是对哪个地方做操作
12.文本对抗训练还有哪些方法
13.focal loss实践中用过么
14.不同类别样本不均衡：采样；loss权重；用树；
15.针对数据不平衡，模型层面怎么改进？
16.随机森林和gbdt的区别
手撕：K-means；
手撕：5000个词的文档，1000w+金融列表，如何快速判断文章中是否包含金融词？

部门2实习二面
1.详细说下知识蒸馏怎么做的？知识蒸馏loss的公式？对话的loss公式？
2.蒸馏用的组后一层的输出，你了解比如中间层的蒸馏么
3.如何避免生成一些敏感的回复？
4.判断一对句子相似度怎么做？
5.通过W2V怎么拿到句子表示？（答的词表示均值，我觉得可能想问attention）
6.介绍下Bert的多头注意力的计算过程，self-attention公式（768通过三个768*64变一个头的q,k,v）
7.谱聚类了解么（不了解）
8.类别是预先定义的吗？不是；你有调研过比如密度聚类等方法么？
9.用kmeans的缺点是什么
10.kmeans的原理

秋招
蒸馏用的是输出端的蒸馏吗
蒸馏里面的温度参数了解吗
百度ERNIE了解吗
介绍一下MLM的变种答了SpanBert T5
介绍Bert
如果是bs * max_len * emb的输入，BN和LN分别是对哪一维做；为什么nlp不用BN
知道Bert词表里的中文、英文词怎么来的吗
warmup学习率

# 题目1：将链表中的节点右移m个位置
# 示例1:
# 输入: 6->7->8  ->  9->10->NULL, m = 2
# 输出: 9->10->6->7->8->NULL
# 示例2:
# 输入: 6->7  ->  8->NULL, m = 4
# 输出: 8->6->7->NULL
# 节点定义
# class ListNode(object):
#     def __init__(self, val=0, next=None):
#         self.val = val
#         self.next = next
# 给定head节点和位移m，实现函数rotate(head, m)

# 题目2：判断字符串2是否包含字符串1的排列，假设字符串只包含小写字母
# 示例1:
# 输入: s1 = "cd" s2 = "edcoao"
# 输出: True
# 解释: s2包含s1的排列之一 ("dc")
# 示例2:
# 输入: s1= "cd" s2 = "edocao"
# 输出: False
# 给定s1和s2，实现checkInclusion(s1, s2)