关于机器写稿的归纳和总结

还有什么是写稿机器人不会写的?北大计算机所万小军详解写稿机器人的技术及应用| CCF-GAIR 2017

现状

      目前机器写稿侧重在体育、财经、民生领域,一般为很多科技公司或者新闻媒体所采纳。如新闻社快笔小新撰写财务年报,微软的诗歌、唱歌、聊天机器人小冰等。

机器写稿的两种方式

      一种是原创,一种是二次创作。
      原创一般是之前没有稿件,只有一些结构化的数据,可以借助结构化的数据去生成新的稿件,比如写一个天气预报的报道,写一个年报,财报都可以从数据中去生成。
      而关于一个已经有相关报道的事件,借助这些报道进行一些拼凑、改写成为新的稿件,是二次创作。

机器写稿涉及的NLP技术

      原创和二次创作所依赖的技术也是不太一样的。
      原创采用的是自然语言生成技术,是从结构化数据/意义表达生成自然语言语句。有基于模板、规则或者统计的方法。
      二次创作采用的是自动摘要技术,我们从已有的文字素材去给它摘要,把它生成一个新的稿件。可借鉴、改造已有的自动摘要方法。
      还有其它的一些相关技术:文本信息推荐技术和文本复述技术。
      有时在写一个稿件的时候想引用一句名人的话或者引用一个唐诗宋词,机器会自动给你推荐。关于文本信息推荐技术的话,如果运用到自动创作上。可以考虑讲一段没有文采的话,打磨成一段有文采的话。或者直接生成具有文采的段落。
      对于文本复述技术,当基于一个个稿件进行创作的时候,如果直接讲原文的内容拷贝过来,就有抄袭的嫌疑,这时候做一些复述的话,会用不同的语言表达相同的语义。比如,“梅西获得了5座金球奖”,可以改为“梅西是五届金球奖得主”,这样改写可以避免版权问题,而且还可以让我们的改写更加生动。

机器人写稿的应用

      体育赛事简讯自动生成,输入结构化的数据以及已有的稿件,可以生成长度可控的几十字到几千字的稿件。
      体育赛事长篇报道自动生成,用来介绍整个比赛过程,可以通过直播文字的采集,然后通过语句的选择和排序,最后进行赛事报道的生成。
      新闻综述自动生成,根据同一事件的多篇新闻报道,自动生成篇幅较长的事件综述。通过新闻采集,段落划分,段落排序,段落选择与合并完成。
      用户评论自动生成,根据指定的用户观点数据(产品特性+评分),自动生成对应的产品评论。基于深度学习模型,根据用户对产品的特征的分数的输入,自动生成一个比较完整的一大段的用户的评论。举例:比如我们输入的空间是3分,动力是4分,舒适性是3分,3分代表一般,我们看到右侧生成的中文的评论,得到的表达是“舒适性一般,毕竟是运动型的车”,它很准确的对这个分数进行了描述。然后把舒适性从3分改成5分,5分是非常满意,最终生成的对应的文字的部分就是“舒适性很好,座椅的包裹性很好,坐着很舒服”。我们的模型能够很好将这个分数的细微改动直接反应到最终的自然语言的结果上。

机器写稿的过程和特点

      机器写稿的时候,虽然它把每个句子都写出来了,但是它实际不知道自己写的什么,也就是它没有理解自己的稿件,虽然它写出来了,包括机器人写诗或者各种歌词的时候,它也把那个语言写出来了,但是它没有真正理解那个语言。

机器写稿的展望

      目前来说侧重对客观事实的描写,如果可以加入态度或者立场的话,会更加人性化。
举例:在报道中国队对韩国队的比赛的时候,我们如果站在韩国队的立场,如果中国队输了的话,我们就应该是很高兴的,标题可能会说“韩国队大胜中国队”,如果是站在中国队的立场,可能标题写会“中国队憾负韩国队”,这个立场就不一样,我们的稿件具有这样的态度和立场,它就会更加人性化。

      最难的一点:让机器学会推理和归纳,写出真正的深度报道。比如说我们报道一场足球比赛以后,我们要分析一下为什么是这样的结果,把这个原因进行推理总结出来。

      最后,想总结一下自己的想法,关于长文写作吧,给定一个topic去生成,可能需要借助其它外界的信息,直接生成有困难,任重而道远。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值