论文阅读:Curate and Generate: A Corpus and Method for Joint Control of Semantics and Style in Neural NLG

该论文针对神经网络自然语言生成(NNLG)领域的数据稀缺性和风格控制问题,提出了一种新方法。作者基于Yelp数据集创建了一个新的YELPNLG数据集,用于生成具有不同标签的大量训练数据。通过模型设计,能够同时控制语义和文本风格。论文通过多维度评估,包括自动语义和文体评估以及人类质量评价,验证了方法的有效性。
摘要由CSDN通过智能技术生成

简介:

     基于神经网络的自然语言生成(NNLG)领域进行文本生成时经常有两大瓶颈,(1)缺乏大量(meaning representation)MR to (natural language)NL的数据;(2)不能系统的控制输出的重要方面,从而使得生成不同风格的文本;作者这篇文章围绕这两个问题,基于Yelp数据集(代表能够容易获取的描述性的数据集),能生成出具有不同标签同时大量的和原文一样能用于训练的数据集;并且论文系统的研究了这些文本类型标签是怎么联合控制模型输出的语义(semantic)和文本风格(文体)(stylistic);

主要贡献点:

一、生成新YELPNLG数据集:

      1.在原始的Yelp数据集近400w评论中,根据Oraby【1】的原始工作中拿到餐厅的词典,这些词典包含5个属性(来自于Wikipedia,DBpedia):restaurant-type, cuisine, food, service, and staff;最后拿到了50W条至少包含一个属性的评论文本,然后再留下词数在4-30的句子;

      2.使用Chen and Manning【2】的斯坦福依存解析器解析这些句子;识别出所有名词,然后再属性集中寻找,得到一个二元制eg:(

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值