[NLP]论文笔记Paraphrasing With Bilingual Parallel Corpora 双语平行语料库释义

在复述模型的研究方面 ,Bannard 和 Callison 2 Burch基于双语平行语料提出了一种复述模型 [10] , 该模型利用外文翻译作为“枢轴”来计算短语 e 2 是 e 1 的复述的概率 P( e 2 | e 1 ) . 具体地 , 设 f 是 e 2 和 e 1 共有的外文翻
译 , 则该模型通过计算 P(f | e 1 ) 和 P( e 2 |f)的乘积来得到 P( e 2 | e 1 ) . 同时 , 该模型还结合语言模型来计算 e 2出现在给定上下文中的概率

基于枢轴的方法应用于大规模的双语平行语料库 [58] .他们首先使用机器翻译中的词对齐和短语抽取技术从双语平行语料库中抽取出短语翻译对,然后利用外文翻译作为枢轴抽取英文复述短语.设英文短语 e 1 和 e 2 对应的枢轴为 f,则该方法将 e 1 到 f 的翻译概率和 f 到 e 2 的翻译概率的乘积作为 e 1 到 e 2 的复述概率.受该研究的启发,我们将基于枢轴的方法用于复述模板的抽取 [4] .我们使用对数线性(log-linear)模型计算复述概率,抽取出像 consider X 和 take X into consideration 这样的复述模板.

单语平行语料库的稀缺性。the narrow range of text genres available for monolingual parallel corpora limits the range of contexts in which the paraphrases can be used.

拓展了一种翻译方法:phrase-based statistical machine translation
The essence of our method is to align phrases in a bilingual parallel corpus, and equate different English phrases that are aligned with the same phrase in the other language.
Section 2: we rank the extracted paraphrases with a probability assignment
Section 3 describes our experimental setup and includes information about how phrases were selected, how we manually aligned parts of the bilingual corpus, and how we evaluated the para- phrases.
Section2: 对齐短语:align phrases within sentence pairs
2.1 statistical machine translation techniques are used to align phrases within sentence pairs in a bilingual corpus
-- recent phrase-based approaches to statistical machine translation

(1) The original formulation of statistical  machine translation (Brown et al., 1993) was  defined  as a word-based operation.
(2) More recent approaches to statistical translation calculate  the translation  probability using larger blocks of aligned text.
We use the heuristic for phrase alignment  described in Och and Ney (2003) which  aligns phrases by incrementally build- ing longer  phrases from words  and phrases which
have adjacent alignment points.

公式4:S allows us to re-rank the candidate paraphrases based on additional contextual information
最终:We produced automatic alignments for it with the Giza++ toolkit (Och and Ney, 2003)
we also developed a gold standard of word alignments for the set of phrases that we wanted to paraphrase
为每个短语提取多种可能的释义:our method frequently extracts more than one possible paraphrase for each phrase.

2.2 翻译模型概率,, 最大似然估计。



现 有 的 语 料 库 建 设 主 要 表 现 出 以 下 共 同 特 点 : 第 一 ,句 子 层 面 实 现 对 齐 ,方 便 了 对 特 定 语 言 转 换 现 象 的 大 规 模 观 察 与 分 析 ;第 二 ,自 动 标 注 与 人 工 标 注相 结 合 ,使 得 相 关 研 究 得 以 从 形 式 到 语 义 、语 用 、文 体 等 方 面 深 入 。基 于 平 行 语 料 库 的 翻 译 研 究 主 要 集 中 在 三 个 方 面 :第 一 ,语 料 库 建 构 技 术 探 索 。 主 要 探 讨 如 何 运 用 计 算 机 技 术 来 研 制 语 料 库 ,尤 其 是 对 汉 语 文 本 的 加 工 、英汉 对齐的处理以及手工标 注 介入 等 问 题 ;第 二 ,基于语料库的实证 研 究 和 理 论 探 讨 。 以 翻 译 共 性 为 例 ,相 关的实证研究不仅关注 单 一类 比 模 式 (thecomparablemode)下 目 标 语 中 翻 译 文 本 与 非 翻 译 文 本 之 间 的 差 异 ,而且也将源文本 作 为 分析 和 解 释 翻 译 文 本 中 特 定 语 言 转 换 现 象 的 一 个 维 度 。既 有 对 翻 译 语言宏观特征 的 探究 ,也 有 对 具 体 语 言 转 换 的 考 察 。 第 三 ,平 行 语 料 库 在 翻 译 教 学 中 的 应 用 ,具 体包括网 络检索平台的辅助翻译 教 学和 自 建 语 料 库 在 课 堂 教 学 中 的 运 用 等 。

  • 0
  • 2
    觉得还不错? 一键收藏
  • 0




当前余额3.43前往充值 >
领取后你会自动成为博主和红包主的粉丝 规则
钱包余额 0


