Statiscal Machine Translation机器翻译_CodingPark编程公园

最新推荐文章于 2021-03-14 15:54:26 发布

TEAM-AG

最新推荐文章于 2021-03-14 15:54:26 发布

阅读量3.2k

点赞数 1

分类专栏：自然语言处理文章标签：自然语言处理

版权由TEAM-AG团队所有

本文链接：https://blog.csdn.net/weixin_38411989/article/details/106254560

版权

自然语言处理专栏收录该内容

17 篇文章 1 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Statistical Machine Translation的基本流程，包括双语数据预处理（中文分词、英文分词）、词对齐（使用GIZA++）、短语翻译表构造以及概率估计。在数据预处理中，涉及了数字、日期等特殊词汇的泛化处理；词对齐通过GIZA++获取中英文词语对应关系；短语抽取保证与词对齐一致；概率估计用于评估短语对的正确性。

摘要由CSDN通过智能技术生成

文章介绍

本文主要讲述了Statiscal Machine Translation的基本步骤

内容讲述

1 三个Model-自顶向下看问题

在这里插入图片描述

2 双语数据预处理

学习目标：了解和学习开发汉英双语数据预处理模块。

双语数据预处理是统计机器翻译系统构建的第一步，为词对齐处理提供分词后的
双语数据。预处理的工作本质上就是双语数据的分词处理，与传统分词不同的一
点在于需要对一些特定类型词汇进行泛化处理，如数字词汇“123.45”泛化为
“$number”来代替原文。

中文分词预处理

采用传统基于词典的正向最大匹配法来完成中文分词

了解本专栏

超级会员免费看

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

TEAM-AG 编程公园：输出是最好的学习方式

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。