1. 背景
1.1 NLP产品应用
翻译,智能音响,搜索引擎,智能推荐
对话系统,问答,机器翻译,情感分析,语义匹配
-
语义表示
- 形式化符号表示
- 统计分布表示
-
word2voc 2013 google
动态词向量:rnn,lstm,transformer -
ELMo
-
GPT
-
BERT
-
XLM
-
XLNet
-
ERNIE
监督数据有限,用无监督的方式,大规模预训练
2. ERNIE背景技术介绍
2.1 基础结构transformer
用了12层
2.2 训练方式
- 完形填空
2.3 基于片段的mask
2.4 ERNIE 2.0
词法层面
- 大小写预测
句法层面
-
打乱句子顺序后重新预测——分类任务(3句,6类)
-
句子距离:3分类任务:语义紧密,同一话题,
-
语义逻辑关系预测:
怎么持续学习的?
同一阶段多任务
3. 应用场景剖析
- 中文词法分析
- 文本情感分类
- 机器阅读理解
- 文本对话理解
产品
- 文本相似度:排序
- 情感分析:2分类
- 命名实体识别
- 阅读理解
上线就是问题就是效率
性能敏感
度小满用户风控
**任务:**利用用户的文本行为数据预测用户的逾期风险
每天跑一遍,无性能要求
搜索问答问题识别
特征向量化
ANN 向量索引库
相关视频推荐
用短视频的title
4. ERNIE应用工具
paddleNLP
平台化
部署在百度云
支持docker部署
Q&A
- 句子重排的提升效果最明显
- 很多的trick
- 持续学习
多个loss计算出来之后,加起来就好了。