文章目录
文章链接
1、如何去衡量优化效果?
与推荐问题相似,提升点击率、转化率在内的通用指标,同时兼顾阅读体验。
如何量化阅读体验?
2、应用形态
2.1 面向内容
对一条内容生成标题。
2.2 面向商户
指推荐文案与内容化聚合页。
推荐文案:一个商家的核心卖点描述,一句话推荐。
内容聚合:标题+多条文案的短篇推荐理由。
3、具体技术
3.1 文本生成
理论!=实际
- 理论:基于数据衡量与训练目标样本的相似度。
- 实际:以线上效果为导向,辅以人工评测。
3.2 文本建模
为了让终端可以完成更多任务:分类、序列生成、语义推理、相似度匹配。
-
Contextual Embedding
- 解决的核心问题:如何利用大量的没标注的文本数据学到一个预训练的模型,并通过通过这个模型辅助在不同的有标注任务上更好地完成目标。
- 模型:Elmo, GPT, BERT.
-
Tree-Based Embedding
- 用根结点的Embedding即可作为上下文的表征
- 调优难度大,未使用。
4、实践
## 4.1 信息流标题生成
### 4.1.1 方法
#### 抽取式
#### 受限生成式
#### 抽取+生成混合
### 4.1.2 业务指标与生成式模板的gap
### 持续获取标注数据
4.2 商户文案
- 抽象为:context
- 业务目标:点击率、页面穿透率
- 技术目标:按照不同要求生成seq,泛化性
- 任务类别:Data2Text
- 特点:准确性要求低、复杂度低
- 难点:泛化性要求高
4.2.1 商户表示
【商户评论+商户属性】 & 【商户信息 + 卖点信息】 & 【卖点图谱】
中间的【商户信息+卖点信息】是目标文本。 前期可以通过LDA等方法进行卖点挖掘。
4.2.2 控制端实现
其实是一个受限优化问题:解码端的强控制+弱控制;动态加入所需的控制目标。
卖点控制
将地域
、品牌
等涉及到强控制的卖点和实体直接编码进入context
;基于卖点共现概率随机加入context
风格控制
风格也作为特征写入context
4.3 内容聚合
多样性控制
本质原因是,在解码预测Beam Search
时永远选择概率最大的序列,并不考虑多样性。但是如果预测时采用Decoder概率Random Search
的方法,则在通顺度上会存在比较大的问题。
实际方法
直接对全局结果进行优化,在预测时把一个聚合页Context
放到同一个batch
中,batch_size
即为文案条数,对已经生成序列上进行实体重复检测和n-gram
重复检测,将检测判重的加一个惩罚性打分。