美团技术年货-算法篇-笔记

最新推荐文章于 2024-01-01 09:31:26 发布

龙仔941

最新推荐文章于 2024-01-01 09:31:26 发布

阅读量420

点赞数

分类专栏：搜索 NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34146899/article/details/104120665

版权

NLP 同时被 2 个专栏收录

27 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

pretrain

基于rnn elmo

基于transformer gpt bert

downstream-task 分类序列标注句间关系判断阅读理解

nsp 任务对pretrain并没有太大的影响

美团pretrain的优化：

1.混合精度 fp16,fp32 训练加速

2.美团业务预料加入预训练，领域迁移

3.知识图谱加入，实体词，让mask 时候根据词为单位。

4.finetune

模型轻量化：

1.低精度量化，fp16，fp8

2.模型裁剪和剪枝

3.指示蒸馏

美团业务场景：

推荐理由，场景分类，query频道分类，查询改写，query成分分析，智能客服

搜索：

搜索特性搜索时不带查询词，本质属于推荐

商品搜索，酒店搜索个性化要求比较高，不同的消费水平，偏好大不一样

酒店搜索：时间，位置

网页搜索：数据抓取能力，数据解析能力

搜索架构：召回，排序，业务规则。

召回--查询理解【分类，分词】，召回数据【es】。地点搜索，成分识别，旅游异地跳转，同义词

排序--千恩前面，个性化定制

业务层面：刷单作弊，广告

搜索意图：POI，榜单，UGC，攻略，达人。

找店：距离，热度，菜品，地理位置

品牌：最近的。菜品：推荐人数更加敏感

旅游：知名特色

业务多样：家装频次低，行为稀疏，距离若，周期长；

美食：即时消费

推荐：

搜索在线学习功能，吃更大量数据

特征工程：

特征归一化，反向传播对特征尺度比较敏感

特征离散化。离散化可以进行更好的embedding，鲁棒性更强，非线性的能力。

玩物皆可embedding：用户id进行embedding，用户id部分特征稀疏，难以收敛，采用聚类方式，丰富特征，即数据增强。

word2vec 用户/商户点击行为建模

文本生成

1.损失函数加入其它打分部分，根据是否有关键词、topic、title 这些内容进行匹配，赋予分数，进行拟合

$log(P(y^{t-1})))/norm_length+fcountrol(y^{t-1})$

在用的模型也是 seq2seq+attention框架，再次基础上加上主题，关键词控制，并做 loss 的优化

2.抽取式-易于控制，句子级别，生成式，规则式-新闻

3.E&E

4.为了多样性，在batch-level进行 n-gram，关键词，主题的判别，并给与一个整体的惩罚和奖励。

美团大脑：人，店，商品，场景

机器学习平台底层有个gpu调度，动态调用不同的gpu数量

horovod 优势：性能损失小，训练速度达到标准分布式 tensorflow的两倍。扩展性好。吸收百度的ring allreduce

美团每提出一个新的模型，都会在公开数据集上加以验证，看模型的实际效果

人类日常活动：背景知识作为支撑

bert：样本空间的特征，表征。大型的文本匹配模型

美团搜索：1.意图识别，分类； 2. bert 相似度匹配；

细粒度情感分析任务：

模型设计：share-layers task-specific-layers

task-specific-layers 采用多路并行的 attention+softmax组合结构

模型参数设计：平行结构，菱形结构，金字塔结构。 3-6层网络效果较好，多数平行结构效果最好，

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
美团技术年货-算法篇-笔记

pretrain基于rnn elmo基于transformer gpt bertdownstream-task 分类序列标注句间关系判断阅读理解nsp 任务对pretrain并没有太大的影响美团pretrain的优化：1.混合精度 fp16,fp32 训练加速2.美团业务预料加入预训练，领域迁移3.知识图谱加入，实体词，让mask 时候根据词为单位...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。