预训练的词向量是可以提高模型的泛化能力的。 解釋:以ner为例。 省份山西和北京的词向量比较接近,那么在前向传播的过程中,两者的计算结果就比较相近,同时被识别为命名实体的概率就很高。 比如,语料中经常出现北京,模型可以学习到北京是一个ner,但是语料中,山西出现的如果比较少,可能不能直接判定山西是一个ner,但是在前向传播的过程中,两者的计算结果就比较相近,山西也就可以被判别为ner了。