Lesson 4 基于统计的翻译系统

Sarah ฅʕ•̫͡•ʔฅ

已于 2022-05-23 23:07:30 修改

阅读量138

点赞数

分类专栏： Course - 七月自然语言处理文章标签：自然语言处理机器翻译人工智能

于 2019-04-19 12:58:47 首次发布

本文链接：https://blog.csdn.net/u014765410/article/details/89397520

版权

Course - 七月自然语言处理专栏收录该内容

8 篇文章 0 订阅

订阅专栏

基于统计的翻译系统构建步骤（以中->英翻译为例）：

step1：对文本进行预处理，如：分词，去除停用词…，最终形成“平行语料”用于training；
step2：词对齐：利用giza++ 形成两个“词对齐文件”：1）中->英，2）英->中，并利用“词对齐对称化算法”将两个词对齐文件进行合并，从而形成最后的词对齐文件。词对齐具体格式如下图：

单向词对齐：
双向词对齐：

note that：giza++库是基于IBM model（词对齐模型）构建的。
step3：短语概率表构建
step3.1：短语抽取：根据词对齐的结果，进行短语抽取（based on “一致性短语算法”）

step3.2：短语概率表构建

step4：decode：将源语言翻译为目标语言
p(target|source) = translation model(短语概率表) * reordering model(词换序情况评估) * languange model(翻译结果是否符合母语说话风格)

在decode过程中，用到了beam search（在每一步的翻译结果中，选择beam个最优翻译结果，并以此为依据，继续往下翻译）

step5：对翻译系统进行评估
采用Belu来评估翻译结果：
在这里插入图片描述

课件：基于统计的翻译系统 [ F:/data ming/ML html/other lessons nlp自然语言处理/Lesson 4 基于统计的翻译系统 ]

Sarah ฅʕ•̫͡•ʔฅ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Lesson 4 基于统计的翻译系统

基于统计的翻译系统构建步骤（以中->英翻译为例）：step1：对文本进行预处理，如：分词，去除停用词…，最终形成“平行语料”用于training；step2：词对齐：利用giza++ 形成两个“词对齐文件”：1）中->英，2）英->中，并利用“词对齐对称化算法”将两个词对齐文件进行合并，从而形成最后的词对齐文件。词对齐具体格式如下图：单向词对齐：双向词对齐：...
复制链接

扫一扫