N-Gram:(常用的是bi-gram和tri-gram、用来评估一个句子是否合理)
https://zhuanlan.zhihu.com/p/32829048
介绍RNN和LSTM非常的详细:
https://juejin.cn/post/6949159845731762184
介绍transformer,比较详细,但是在dmodel=512处好像是有问题?
https://zhuanlan.zhihu.com/p/48508221
BERT的双向体现在什么地方?
https://zhuanlan.zhihu.com/p/69351731
Bert、attention、Transformer?