关于BERT与训练语言模型的一些思考
图像领域的预训练方式
在图像之中,一些底层的特点可以使用网络的一些关键底层进行特征的学习和训练,比如每一张图片都会有相关的棱角,或者底色之类的东西也就是图像中的共有基础特征点,可以使用深层网络对这些不关乎具体任务的特征进行编码学习。比如以下图片:
比如在目标检测和分类任务中,图片中涉及到的背景颜色和相关的色调等特征,跟具体任务关系不大,可以使用预训练语言模型进行特征的识别和图像的特征建模。
将大规模的模型预训练完成后,可以便于具体任务的参数初始化,优化初始化过程,加速模型的收敛。
自然语言处理中的预训练
自然语言处理中的预训练模型的发展,其实在某种程度上借鉴了图像识别中的预训练模型方式,即冻结一个大型模型中的某些参数,或对某些参数进行微调。
nlp领域的预训练模型,比如BERT模型就使用了这一种想法,通过大规模的语料,关注到每一条文本的基本语义语法特征信息,从一个较大的层面关注句子所表达的意思,然后再接上后续模型,在具体任务上进行模型的微调处理。
关于图像领域预训练模型的技术
关注何凯明,2021年的一篇文章《Masked Autoencoders Are Scalable Vision Learners》,其预训练图像mask方法,膜拜