面经 | NLP算法岗(腾讯)

最新推荐文章于 2024-09-21 16:30:04 发布

codebrid

最新推荐文章于 2024-09-21 16:30:04 发布

阅读量2.4k

点赞数 1

分类专栏：面经

本文链接：https://blog.csdn.net/ccbrid/article/details/102943802

版权

面经专栏收录该内容

2 篇文章 0 订阅

订阅专栏

今年腾讯大部分hc留给提前批和实习转正，建议尽早准备。

提前批投递时可以自主选择部门，有些部门的hc几乎全都留给实习生转正，建议无法实习的童鞋们，提前做好调研，避开这些部门。

部门选错了就直接凉了哦（手动微笑脸）

体验总结

a. 面试内容很全面，会涉及相关领域的前沿工作，并且会问的相当深入

b. 项目问的非常细节，我们的项目面试官基本都有了解，不会出现面试官不懂项目的情况

c. 不会问特别难的算法(比如线段树，公共祖先)，感觉腾讯更注重基础

一面

自我介绍+项目
序列标注常见算法有什么
- 之前常见的序列标注问题的解决方案都是借助于HMM模型,最大熵模型,CRF模型
CRF HMM 区别
- HMM是有向图，CRF是无向图
- HMM是生成式模型（要加入对状态概率分布的先验知识）
- CRF是判别式模型（完全数据驱动）
- CRF解决了标注偏置问题，去除了HMM两个不合理的假设等等。
多分类序列标注怎么做
如何构建想要的词表
指针与引用的区别
TransformerXL是什么？为了什么而提出
- XL是“extra-long”的意思，即Transformer-XL做了长度延伸的工作；
- Transformer规定输入大小为512，原始的输入需要进行裁剪或填充，即将一个长的文本序列截断为几百个字符的固定长度片段，然后分别处理每个片段。
- 这存在着文章跨片段依赖不能学习到的问题，也限制了长距离依赖。为了解决这一问题，Transformer-XL被提出。
- 那么Transformer XL进行了什么改进呢？
- 使用分段RNN(segment-level recurrence mechanism)且存储上一次处理的片段信息；使用了相对位置编码方案(relative positional encoding scheme)）
BERT ELMO XLNET 区别
- 模型结构
- 自回归和自编码语言模型在生成方面的问题
- XLNet维持了表面看上去的自回归语言模型的从左向右的模式，这个Bert做不到。这个有明显的好处，就是对于生成类的任务，能够在维持表面从左向右的生成过程前提下，模型里隐含了上下文的信息。
一道编程题：全排列，一般难度

二面

自我介绍+项目
项目
项目现在再看可以怎么改进
项目的学习率怎么调的
发没发论文，毕业前是否有发论文的打算
根据项目引申了很多

三面

自我介绍+项目
BERT warm-up
BERT都有什么改进
ERNIE 怎么做的
- 把bert的单字mask改为词mask，直接对语义知识进行建模，增强了模型语义表示能力。
- 引入多源数据语料进行训练；
- 引入了论坛对话类数据，利用 DLM（Dialogue Language Model）建模 Query-Response 对话结构，将对话 Pair 对作为输入，引入 Dialogue Embedding 标识对话的角色，利用 Dialogue Response Loss 学习对话的隐式关系，进一步提升模型的语义表示能力；
- 通过在自然语言推断、语义相似度、命名实体识别、情感分析、问答匹配 5 个公开的中文数据集合上进行效果验证，ERNIE 模型相较 BERT 取得了更好的效果。
- 继1.0后，ERNIE英文任务方面取得全新突破，在共计16个中英文任务上超越了BERT和XLNet, 取得了SOTA效果。
ERNIE 2.0相对于1.0有什么改进
- 百度提出可持续学习语义理解框架 ERNIE 2.0。该框架支持增量引入词汇（ lexical ）、语法（ syntactic ）、语义（ semantic ）等3个层次的自定义预训练任务，能够全面捕捉训练语料中的词法、语法、语义等潜在信息。
算法题：
- n分解成最少多少个平方数的和
- n个串的最大公共前缀
- 树后序遍历非递归（要求空间时间复杂度，并不断改进）