个人项目实训(二)——基于规则的方法,Seq2Seq

基于规则的方法

这些方法成功关键取决于将陈述句转换到疑问句的规则设计得是否足够好,而转化规则通常需要设计者具有深层的语言知识。

为了改进纯基于规则的系统,2010 年,Heilman 等人引入了一种冗余问题生成和排序的方法,该方法使用基于规则的方法从输入语句生成多个问题,然后使用监督学习的方法,利用术语抽取以及浅层语义分析对它们进行排序,仅仅保留排名靠前的问题,由此生成的问题相较于之前完全基于规则的方法有了很大的提升。

尽管排名算法有助于产生更多可接受的问题,但它在很大程度上依赖于人工设计的特征集,并且所产生问题的大部分词是输入子序列的重排,这样的问题非常简单易于回答。通常,基于规则的方法利用单词的句法特征,而不利用其语义特征。

UniLM

Nan提出了一种新的统一预训练语言模型(UniLM),可以针对自然语言理解和生成任务进行微调。使用三种类型的语言建模任务对模型进行预训练:单向,双向和序列到序列的预测。
.

对于给定的输入序列(S,Source)和对应的答案(A,Answer),我们希望可以生成对应的问题 Q 满足下列等式:
在这里插入图片描述

评价标准

1.BLEU

BLEU 通过 N-gram 的匹配规则,比较机器译文和参考译文之间 N-gram组词的相似的一个占比。

2.ROUGE-L

ROUGE-L 提出时主要用于文本摘要领域。想要使用 ROUGE-L 指标衡量长度为 n 的候选摘要句子基于长度为 m 的参考摘要句子的生成质量。

基于这样的理论基础:两个句子的最长公共子序列越长,两个句子越相似相似。

3.METEOR

它基于机器译文和参考译文之间的单精度的加权调和平均数和单字召回率,可以根据其表面形式,词干形式和含义来匹配单字。
.

序列到序列(Seq2Seq,Sequence-to-sequence)

评价标准序列到序列(Seq2Seq,Sequence-to-sequence)这种结构的特点在于输入序列和输出序列的长度可变。

同时还引入了注意力机制,增加权重。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值