阅读笔记-美团NLG信息流


文章链接

1、如何去衡量优化效果?

与推荐问题相似,提升点击率、转化率在内的通用指标,同时兼顾阅读体验。

如何量化阅读体验?

2、应用形态

2.1 面向内容

对一条内容生成标题。

2.2 面向商户

指推荐文案与内容化聚合页。

推荐文案:一个商家的核心卖点描述,一句话推荐。

内容聚合:标题+多条文案的短篇推荐理由。

3、具体技术

3.1 文本生成

理论!=实际

  • 理论:基于数据衡量与训练目标样本的相似度。
  • 实际:以线上效果为导向,辅以人工评测。

3.2 文本建模

为了让终端可以完成更多任务:分类、序列生成、语义推理、相似度匹配。

  • Contextual Embedding

    • 解决的核心问题:如何利用大量的没标注的文本数据学到一个预训练的模型,并通过通过这个模型辅助在不同的有标注任务上更好地完成目标。
    • 模型:Elmo, GPT, BERT.
  • Tree-Based Embedding

    • 用根结点的Embedding即可作为上下文的表征
    • 调优难度大,未使用。

4、实践

## 4.1 信息流标题生成

### 4.1.1 方法

#### 抽取式
#### 受限生成式
#### 抽取+生成混合

### 4.1.2 业务指标与生成式模板的gap

### 持续获取标注数据

4.2 商户文案

  • 抽象为:context
  • 业务目标:点击率、页面穿透率
  • 技术目标:按照不同要求生成seq,泛化性
  • 任务类别:Data2Text
  • 特点:准确性要求低、复杂度低
  • 难点:泛化性要求高

4.2.1 商户表示

【商户评论+商户属性】 & 【商户信息 + 卖点信息】 & 【卖点图谱】

中间的【商户信息+卖点信息】是目标文本。 前期可以通过LDA等方法进行卖点挖掘。

4.2.2 控制端实现

其实是一个受限优化问题:解码端的强控制+弱控制;动态加入所需的控制目标。

卖点控制

地域品牌等涉及到强控制的卖点和实体直接编码进入context;基于卖点共现概率随机加入context

风格控制

风格也作为特征写入context

4.3 内容聚合

多样性控制

本质原因是,在解码预测Beam Search时永远选择概率最大的序列,并不考虑多样性。但是如果预测时采用Decoder概率Random Search的方法,则在通顺度上会存在比较大的问题。

实际方法

直接对全局结果进行优化,在预测时把一个聚合页Context放到同一个batch中,batch_size即为文案条数,对已经生成序列上进行实体重复检测和n-gram重复检测,将检测判重的加一个惩罚性打分。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值