1.过往任务中,介绍最得意的一个?
2.数据增强怎样进行的?
3.NLP还有没有其他数据增强的方法?
[link]https://zhuanlan.zhihu.com/p/342032812
4.Bert的3种Embedding是什么?
token Embedding、Position Embedding、Segment Embedding
5.Bert有哪些变种?分别做了什么改进?
变种名称 | 改进点 |
---|---|
XLNet | 提出PLM(排列语言模型)学习被遮掩(Mask)的token之间的关系 |
Bert_wwm | 同时遮蔽子词,全词覆盖 |
ERNIE | 1.mask掉实体单元,引入命名实体外部知识; |
SpanBert | 1.SpanMask, 随机遮盖连续一段字比遮盖掉分散字好; |
ALBert | 1.词向量维度小于encoder输出值维度,降低参数量; |
6.实体链接指什么?实体库中没有对应的实体怎么办?
- 实体链接(entity linking)就是将一段文本中的某些字符串映射到知识库中对应的实体上。
- 如果知识库中没有某一mention对应的实体项,则认为该mention不可链接到当前知识库,标记为NIL。
7.嵌套NER该怎样解决?
[link] https://zhuanlan.zhihu.com/p/126347862浅谈Nested NER
8.怎样构建训练语料库?
BIO标注