pretrain
基于rnn elmo
基于transformer gpt bert
downstream-task 分类 序列标注 句间关系判断 阅读理解
nsp 任务对pretrain并没有太大的影响
美团pretrain的优化:
1.混合精度 fp16,fp32 训练加速
2.美团业务预料加入预训练,领域迁移
3.知识图谱加入,实体词,让mask 时候根据词为单位。
4.finetune
模型轻量化:
1.低精度量化,fp16,fp8
2.模型裁剪和剪枝
3.指示蒸馏
美团业务场景:
推荐理由,场景分类,query频道 分类, 查询改写,query成分分析,智能客服
搜索:
搜索特性搜索时不带查询词,本质属于推荐
商品搜索,酒店搜索 个性化要求比较高,不同的消费水平,偏好大不一样
酒店搜索:时间,位置
网页搜索:数据抓取能力,数据解析能力
搜索架构:召回,排序,业务规则。
召回--查询理解【分类,分词】,召回数据【es】。 地点搜索,成分识别,旅游异地跳转,同义词
排序--千恩前面,个性化定制
业务层面:刷单作弊,广告
搜索意图:POI,榜单,UGC,攻略,达人。
找店:距离,热度,菜品,地理位置
品牌:最近的。 菜品:推荐人数更加敏感
旅游:知名特色
业务多样:家装 频次低 ,行为稀疏,距离若,周期长;
美食:即时消费
推荐:
搜索在线学习功能,吃更大量数据
特征工程:
特征归一化,反向传播对特征尺度比较敏感
特征离散化。 离散化可以进行更好的embedding,鲁棒性更强,非线性的能力。
玩物皆可embedding:用户id进行embedding,用户id部分特征稀疏,难以收敛, 采用聚类方式,丰富特征,即数据增强。
word2vec 用户/商户 点击行为 建模
文本生成
1.损失函数加入其它打分部分,根据是否有关键词、topic、title 这些内容进行匹配,赋予分数,进行拟合
在用的模型也是 seq2seq+attention框架,再次基础上加上 主题,关键词控制,并做 loss 的优化
2.抽取式-易于控制,句子级别,生成式,规则式-新闻
3.E&E
4.为了多样性,在batch-level进行 n-gram,关键词,主题的判别,并给与一个整体的惩罚和奖励。
美团大脑: 人,店,商品,场景
机器学习平台底层有个gpu调度,动态调用不同的gpu数量
horovod 优势:性能损失小,训练速度达到标准 分布式 tensorflow的两倍。扩展性好。 吸收 百度的ring allreduce
美团每提出一个新的模型,都会在公开数据集上加以验证,看模型的实际效果
人类日常活动:背景知识作为支撑
bert:样本空间的特征,表征。 大型的文本匹配模型
美团搜索:1.意图识别,分类; 2. bert 相似度匹配;
细粒度情感分析任务:
模型设计:share-layers task-specific-layers
task-specific-layers 采用多路并行的 attention+softmax组合结构
模型参数设计: 平行结构,菱形结构,金字塔结构。 3-6层网络效果较好,多数平行结构效果最好,