1.ERNIE1.0
ERNIE(Enhanced Representation through Knowledge Integration) 是百度基于BERT开发的NLP模型。ERNIE使用了更多的语料,除维基百科等数据集外,还使用了中文维基百科,百度百科,百度新闻,百度贴吧数据集。该模型的参数: L = 12,H = 768,A = 12 (BERT BASE)。
ERNIE实现了实体级别的Mask,实体级别的连续Mask改变了训练Task,而BERT是基于单字的Mask,其区别如下图所示:

ERNIE的实体级别的Mask包括单字、实体和短语等三个级别,实现字粒度的输入:

使用不同级别的Mask效果如下:

ERNIE还采用了Dialog embedding,输入层使用多轮对话修改NSP任务(random replace 构造负样本)

ERNIE是百度基于BERT改进的NLP模型,通过实体级别的Mask和多任务学习增强表现。ERNIE1.0使用了多种中文数据源,2.0则引入Reddit和搜索数据,采用连续多任务学习框架,包含词法、语言结构和语法级别的预训练任务,提升模型在自然语言处理任务上的性能。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



