Bert成为自然语言处理的通用解决方案
序列网络模型:seq2seq网络 核心一般用rnn
传统的不足:
RNN 每一项需要前一项的数据 无法加速并行训练
Transformer可以
transformer 取代 rnn了
传统词向量不变,不会因为上下文不同而改变,这是不足,因为事实上,同一个词在不同语境中含义其实不尽相同、
self attention: 一个词在编码时不仅仅考虑该词,而是会把上下文的信息也考虑进去进行编码
self attention如何计算: 三个需要训练的矩阵:Q:要去查询的 K:等着被查的 V:实际的特征信息
特征分配和sofamax机制 Multi-head机制 经过全连接层后 ·如此堆叠多层