本文转载自PaddlePaddle
量子位 编辑 | 公众号 QbitAI
机器翻译(machine translation, MT)是用计算机来实现不同语言之间翻译的技术。需要翻译的语言通常称为源语言(source language),翻译成的结果语言称为目标语言(target language)。机器翻译即实现从源语言到目标语言转换的过程,是自然语言处理的重要研究领域之一。
众学简快 心理学考研 http://www.jkkaoyan.com
本文将带领大家了解经典的端到端神经网络机器翻译Seq2Seq模型,以及如何用PaddlePaddle来训练。如果想要实践效果更佳的翻译模型,请参考GitHub模型库中Transformer实现。
背景介绍
早期机器翻译系统多为基于规则的翻译系统,需要由语言学家编写两种语言之间的转换规则,再将这些规则录入计算机。该方法对语言学家的要求非常高,而且我们几乎无法总结一门语言会用到的所有规则,更何况两种甚至更多的语言。因此统计机器翻译(Statistical Machine Translation, SMT)技术应运而生。
在统计机器翻译技术中,转化规则是由机器自动从大规模的语料中学习得到的,而非我们人主动提供规则。因此,它克服了基于规则的翻译系统所面临的知识获取瓶颈的问题,但仍然存在许多挑战:
人为设计许多特征(feature),但永远无法覆盖所有的语言现象;
难以利用全局的特征;
依赖于许多预处理环节,如词语对齐、分词或符号化(tokenization)、规则抽娶句法分析等,而每个环节的错误会逐步累积,对翻译的影响也越来越大。
近年来,深度学习技术的发展为解决上述挑战提供了新的思路。将深度学习应用于机器翻译任务的方法大致分为两类:
仍以统计机器翻译系统为框架,只是利用神经网络来改进其中的关键模块,如语言模型、调序模型等(见图1的左半部分);
不再以统计机器翻译系统为框架,而是直接用神经网络将源语言映射到目标语言,即端到端的神经网络机器翻译(End-to-End Neural Machine Translation, End-to-End NMT)(见图1的右半部分),简称为NMT模型。作为经典模型的实现,可以帮
基于PaddlePaddle的机器翻译教程
最新推荐文章于 2023-05-09 11:43:28 发布
本文介绍基于PaddlePaddle的机器翻译教程,涵盖了端到端神经网络机器翻译Seq2Seq模型,以及如何使用PaddlePaddle进行训练。讨论了机器翻译的历史,包括从基于规则到统计机器翻译再到深度学习的应用,特别是NMT模型。
摘要由CSDN通过智能技术生成