[NLP]论文笔记Paraphrasing With Bilingual Parallel Corpora 双语平行语料库释义

在复述模型的研究方面 ,Bannard 和 Callison 2 Burch基于双语平行语料提出了一种复述模型 [10] , 该模型利用外文翻译作为“枢轴”来计算短语 e 2 是 e 1 的复述的概率 P( e 2 | e 1 ) . 具体地 , 设 f 是 e 2 和 e 1 共有的外文翻
译 , 则该模型通过计算 P(f | e 1 ) 和 P( e 2 |f)的乘积来得到 P( e 2 | e 1 ) . 同时 , 该模型还结合语言模型来计算 e 2出现在给定上下文中的概率


基于枢轴的方法应用于大规模的双语平行语料库 [58] .他们首先使用机器翻译中的词对齐和短语抽取技术从双语平行语料库中抽取出短语翻译对,然后利用外文翻译作为枢轴抽取英文复述短语.设英文短语 e 1 和 e 2 对应的枢轴为 f,则该方法将 e 1 到 f 的翻译概率和 f 到 e 2 的翻译概率的乘积作为 e 1 到 e 2 的复述概率.受该研究的启发,我们将基于枢轴的方法用于复述模板的抽取 [4] .我们使用对数线性(log-linear)模型计算复述概率,抽取出像 consider X 和 take X into consideration 这样的复述模板.


单语平行语料库的稀缺性。the narrow range of text genres available for monolingual parallel corpora limits the range of contexts in which the paraphrases can be used.


拓展了一种翻译方法:phrase-based statistical machine translation
The essence of our method is to align phrases in a bilingual parallel corpus, and equate different English phrases that are aligned with the same phrase in the other language.
Section 2: we rank the extracted paraphrases with a probability assignment
Section 3 describes our experimental setup and includes information about how phrases were selected, how we manually aligned parts of the bilingual corpus, and how we evaluated the para- phrases.
Section2: 对齐短语:align phrases within sentence pairs
2.1 statistical machine translation techniques are used to align phrases within sentence pairs in a bilingual corpus
哪些统计技术
-- recent phrase-based approaches to statistical machine translation


(1) The original formulation of statistical  machine translation (Brown et al., 1993) was  defined  as a word-based operation.
(2) More recent approaches to statistical translation calculate  the translation  probability using larger blocks of aligned text.
We use the heuristic for phrase alignment  described in Och and Ney (2003) which  aligns phrases by incrementally build- ing longer  phrases from words  and phrases which
have adjacent alignment points.
(3)  


2.2如何计算释义的概率:
公式3:通过计算短语e和f在平行语料库中对齐的频率,计算最大似然函数。
公式4:S allows us to re-rank the candidate paraphrases based on additional contextual information
最终:We produced automatic alignments for it with the Giza++ toolkit (Och and Ney, 2003)
we also developed a gold standard of word alignments for the set of phrases that we wanted to paraphrase
为每个短语提取多种可能的释义:our method frequently extracts more than one possible paraphrase for each phrase.




2.1NLP中的对齐短语对。
2.2 翻译模型概率,, 最大似然估计。


拓展释义概率。




补充:协同训练框架图。


现 有 的 语 料 库 建 设 主 要 表 现 出 以 下 共 同 特 点 : 第 一 ,句 子 层 面 实 现 对 齐 ,方 便 了 对 特 定 语 言 转 换 现 象 的 大 规 模 观 察 与 分 析 ;第 二 ,自 动 标 注 与 人 工 标 注相 结 合 ,使 得 相 关 研 究 得 以 从 形 式 到 语 义 、语 用 、文 体 等 方 面 深 入 。基 于 平 行 语 料 库 的 翻 译 研 究 主 要 集 中 在 三 个 方 面 :第 一 ,语 料 库 建 构 技 术 探 索 。 主 要 探 讨 如 何 运 用 计 算 机 技 术 来 研 制 语 料 库 ,尤 其 是 对 汉 语 文 本 的 加 工 、英汉 对齐的处理以及手工标 注 介入 等 问 题 ;第 二 ,基于语料库的实证 研 究 和 理 论 探 讨 。 以 翻 译 共 性 为 例 ,相 关的实证研究不仅关注 单 一类 比 模 式 (thecomparablemode)下 目 标 语 中 翻 译 文 本 与 非 翻 译 文 本 之 间 的 差 异 ,而且也将源文本 作 为 分析 和 解 释 翻 译 文 本 中 特 定 语 言 转 换 现 象 的 一 个 维 度 。既 有 对 翻 译 语言宏观特征 的 探究 ,也 有 对 具 体 语 言 转 换 的 考 察 。 第 三 ,平 行 语 料 库 在 翻 译 教 学 中 的 应 用 ,具 体包括网 络检索平台的辅助翻译 教 学和 自 建 语 料 库 在 课 堂 教 学 中 的 运 用 等 。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值