阅读笔记-美团NLG信息流

最新推荐文章于 2022-11-07 18:02:38 发布

夏殇0808

最新推荐文章于 2022-11-07 18:02:38 发布

阅读量436

点赞数

分类专栏：学习笔记 NLG

本文链接：https://blog.csdn.net/u012328476/article/details/102872362

版权

学习笔记同时被 2 个专栏收录

121 篇文章 1 订阅

订阅专栏

NLG

35 篇文章 3 订阅

订阅专栏

文章目录

1、如何去衡量优化效果？
2、应用形态
- 2.1 面向内容
- 2.2 面向商户
3、具体技术
- 3.1 文本生成
- 3.2 文本建模
4、实践

文章链接

1、如何去衡量优化效果？

与推荐问题相似，提升点击率、转化率在内的通用指标，同时兼顾阅读体验。

如何量化阅读体验？

2、应用形态

2.1 面向内容

对一条内容生成标题。

2.2 面向商户

指推荐文案与内容化聚合页。

推荐文案：一个商家的核心卖点描述，一句话推荐。

内容聚合：标题+多条文案的短篇推荐理由。

3、具体技术

3.1 文本生成

理论!=实际

理论：基于数据衡量与训练目标样本的相似度。
实际：以线上效果为导向，辅以人工评测。

3.2 文本建模

为了让终端可以完成更多任务：分类、序列生成、语义推理、相似度匹配。

Contextual Embedding
- 解决的核心问题：如何利用大量的没标注的文本数据学到一个预训练的模型，并通过通过这个模型辅助在不同的有标注任务上更好地完成目标。
- 模型：Elmo, GPT, BERT.
Tree-Based Embedding
- 用根结点的Embedding即可作为上下文的表征
- 调优难度大，未使用。

4、实践

## 4.1 信息流标题生成

### 4.1.1 方法

#### 抽取式
#### 受限生成式
#### 抽取+生成混合

### 4.1.2 业务指标与生成式模板的gap

### 持续获取标注数据

4.2 商户文案

抽象为：context
业务目标：点击率、页面穿透率
技术目标：按照不同要求生成seq，泛化性
任务类别：Data2Text
特点：准确性要求低、复杂度低
难点：泛化性要求高

4.2.1 商户表示

【商户评论+商户属性】 & 【商户信息 + 卖点信息】 & 【卖点图谱】

中间的【商户信息+卖点信息】是目标文本。前期可以通过LDA等方法进行卖点挖掘。

4.2.2 控制端实现

其实是一个受限优化问题：解码端的强控制+弱控制；动态加入所需的控制目标。

卖点控制

将地域、品牌等涉及到强控制的卖点和实体直接编码进入context；基于卖点共现概率随机加入context

风格控制

风格也作为特征写入context

4.3 内容聚合

多样性控制

本质原因是，在解码预测Beam Search时永远选择概率最大的序列，并不考虑多样性。但是如果预测时采用Decoder概率Random Search的方法，则在通顺度上会存在比较大的问题。

实际方法

直接对全局结果进行优化，在预测时把一个聚合页Context放到同一个batch中，batch_size即为文案条数，对已经生成序列上进行实体重复检测和n-gram重复检测，将检测判重的加一个惩罚性打分。

夏殇0808

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
阅读笔记-美团NLG信息流

文章目录1、如何去衡量优化效果？2、应用形态2.1 面向内容2.2 面向商户3、具体技术3.1 文本生成3.2 文本建模4、实践4.2 商户文案4.2.1 商户表示4.2.2 控制端实现卖点控制风格控制4.3 内容聚合多样性控制实际方法文章链接1、如何去衡量优化效果？与推荐问题相似，提升点击率、转化率在内的通用指标，同时兼顾阅读体验。如何量化阅读体验？2、应用形态2.1 面向内容...
复制链接

扫一扫