Statiscal Machine Translation机器翻译_CodingPark编程公园
最新推荐文章于 2021-03-14 15:54:26 发布
本文详细介绍了Statistical Machine Translation的基本流程,包括双语数据预处理(中文分词、英文分词)、词对齐(使用GIZA++)、短语翻译表构造以及概率估计。在数据预处理中,涉及了数字、日期等特殊词汇的泛化处理;词对齐通过GIZA++获取中英文词语对应关系;短语抽取保证与词对齐一致;概率估计用于评估短语对的正确性。
摘要由CSDN通过智能技术生成