预训练模型MT-BERT的探索和应用
提纲
预训练背景和现状
MT-BERT 核心能力建设
MT-BERT 业务落地
MT-BERT 总结
预训练背景和现状
NLP预训练发展
预训练进化方向
预训练模型多元化发展
预训练进化方向(续)
主流大规模模型
应用案例:Google搜索使用BERT
工业界动态
业界主流公司的搜索及NLP场景都陆续使用BERT或类似的预训练模型
MT-BERT
MT-BERT 定位
MT-BERT是针对搜索场景打造的BERT模型,为语义理解任务提供平台级解决方案
MT-BERT 定位(续)
MT-BERT 训练加速
• 训练框架优化,TF分布式方案升级为Horovod方案,多机多卡稳定加速比
• 单精度和半精度混合训练,减少显存占用,加大Batch Size
• 优化器Adam升级为LAMB,加大Batch Size下减少泛化误差
• DeepSpeed,支持更大模型、更快训练
• Checkpointing、XLA、Kernel优化
多机多卡训练速度提升2.7倍
MT-BERT 更好的预训练规划
MT-BERT 更好的通用模型
训练任务优化:Masking策略优化,融入知识
MT-BERT预训练中加入外部领域知识
-
Entity-aware Masking
-
Knowledge Graph Fusion
• 训练任务 SOP升级SRP
• 输入层 中文混合粒度
• 隐层的优化 增加层数 相对位置编码
• 训练技巧 去掉Dropout 更多的数据
图解(MT-BERT在CLUE Leaderboard上排名第一)
MT-BERT 领域适配
Domain/Task-aware Continue Pretraining
MT-BERT 检索任务适应,双塔模型
双塔得到的表征通过Pooling的方式,信息的损失很大。
通过引入kmeans对这些表征聚类,再后交互,能够很大程度上减少信息损失。
在多个数据集合Trivia QA, SQuAD, Natural Questions 和 MS MARCO上 取得了非常显著的效果提升。
MT-BERT 检索任务适应,交互模型
MT-BERT 检索任务适应,关键词分析
我们发现 在检索任务中,主题匹配的 候选优于一般匹配
我们定义 了三种相关性等 级:主题匹配、一般匹配和不匹配
图解(实验结果)
MT-BERT 实体链指任务适应
MT-BERT 模型轻量化
图解(不同量级量级的实验结果)
MT-BERT 多模态预训练
MT-BERT应用
MT-BERT 在深度查询理解中的应用
MT-BERT 在搜索场景中的应用
MT-BERT 在推荐理由场景中的应用
推荐理由: 基于大众点评UGC为每个POI生产的自然语言可解释性理由
场景化分类: 基于MT-BERT进行单句分类微调,提供符合不同场景需求的推荐理由服务。
MT-BERT 在情感分析中的应用
句子级情感分析
非常好吃, 环境很好 服务很周到 饮料很好喝 ——> 正向
临近九州东路路口,在路西,斜对过是加油站。 ——> 中性
菜的口味很一般般啦,房间的服务也跟不太上 ——> 负向
细粒度情感分析
这家店非常好找,交通也很方便,门口可以停车, 交通方便 ——> 正向
车位还挺多,环境装修典雅,就是座位比较挤,服
务员比较忙,态度感觉一般吧,价格偏高,好在东 服务态度 ——> 中性
西不错,性价比一般吧。饭菜非常好吃,尤其是 价格水平 ——> 负向
鱼,味道很鲜美,分量还挺大,吃撑了~
Aspect-aware LSTM(AA-LSTM)
基于MT-BERT升级细粒度情感分析模型
MT-BERT 一站式平台
平台特性
• 平台预置多版本MT-BERT模型(Tiny、Small、Medium、Base、Large)及Google BERT、RoBERTa等开源预训练模型
• 支持单句分类、句间关系、序列标注任务的分布式Finetune训练和预测
• BERT as Feature 排序模型训练、搜索实验平台深度融合
• 支持模型裁剪和知识蒸馏,定制上线小模型
总结
MT-BERT 本地生活服务预训练模型