Statiscal Machine Translation机器翻译_CodingPark编程公园

本文详细介绍了Statistical Machine Translation的基本流程,包括双语数据预处理(中文分词、英文分词)、词对齐(使用GIZA++)、短语翻译表构造以及概率估计。在数据预处理中,涉及了数字、日期等特殊词汇的泛化处理;词对齐通过GIZA++获取中英文词语对应关系;短语抽取保证与词对齐一致;概率估计用于评估短语对的正确性。
摘要由CSDN通过智能技术生成

文章介绍

本文主要讲述了Statiscal Machine Translation的基本步骤

内容讲述

1 三个Model-自顶向下看问题

在这里插入图片描述
在这里插入图片描述

2 双语数据预处理

学习目标:了解和学习开发汉英双语数据预处理模块。

双语数据预处理是统计机器翻译系统构建的第一步,为词对齐处理提供分词后的
双语数据。预处理的工作本质上就是双语数据的分词处理,与传统分词不同的一
点在于需要对一些特定类型词汇进行泛化处理,如数字词汇“123.45”泛化为
“$number”来代替原文。

  • 中文分词预处理

采用传统基于词典的正向最大匹配法来完成中文分词

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

TEAM-AG

编程公园:输出是最好的学习方式

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值