nlp训练过程梳理
1 图文检索
(1)训练集:图像+文本(自动生成的图像描述或标签)
(2)特征提取
提取图像特征:CNN
提取文本特征:RNN,Transformer
(3)模型设计
目标:让图形特征和文本特征映射到共享的表示空间,让图像-文本对在共享空间中更加接近。不相关的对则远离
(4)训练
采用对比损失,三元组损失来训练函数,从而使得匹配的对更加接近,不匹配的对远离。
(5)验证和评估
使用验证集来评估模型性能,使用召回率、精确度等指标来衡量模型的效果。
(6)应用
在实际应用中,用训练好的模型进行图文检索,输出一个查询你的文本或图像,将返回相关的图像或文本。
2 图像生成文本
(1)训练集:文本(图像标注)+图像
(2) 特征提取
提取图像特征:CNN
提取文本特征:RNN,Transformer
(3)模型设计
编码器:处理图像特征,将图像信息编码为一个固定长度的向量
解码器:生成文本描述,根据图像编码和之前生成的文本片段来预测下一个词
(4)训练
使用已准备好的数据和特征,以及带有标注文本的图像描述,通过最小化损失函数来训练模型。
常用的损失函数包括交叉熵损失(Cross-Entropy Loss)和序列生成损失(Sequence Generation Loss)。
(5) 验证和评估
使用验证集来评估模型的性能,通常使用BLEU、METEOR、CIDEr等自动评价指标来度量生成文本的质量。