- 博客(3)
- 收藏
- 关注
原创 Datawhale AI 夏令营 task2 笔记
然而,翻译的传统标准“信、达、雅”中,“雅”仍是机器翻译追求的理想目标。综上所述,机器翻译系统的优化涉及预处理、模型构建和译文质量评价等多个环节,每个环节都至关重要。预处理包括数据清洗、格式统一、分词、构建词汇表和词向量等,这些步骤确保了输入文本的质量和信息的有效捕捉。进一步地,通过序列截断、填充、添加特殊标记以及数据增强技术,模型的鲁棒性和泛化能力得到增强,以应对复杂和未知的词汇。翻译质量通过人工、有参考和无参考的自动评价方式评估,这些方法各有优势,适用于不同场景。
2024-07-17 23:52:53 134
原创 Datawhale AI 夏令营 task1 笔记
随着计算机性能的提升和大规模平行语料库的出现,统计机器翻译开始兴起。早期的机器翻译系统主要采用基于规则的方法,这种方法依赖于语言学家编写的语法规则和词典进行翻译。其基本原理是“每一种语义在不同的语言当中都存在与其相对应的符号”,即将源语言中的单词替换为目标语言中表达相同含义的单词。统计机器翻译中最主流的方法包括基于词的统计机器翻译(Word-based MT)和基于短语的统计机器翻译(Phrase-based SMT),其流程一般包括预处理、句子对齐、词对齐、短语抽取、短语特征准备、语言模型训练等步骤。
2024-07-14 23:18:31 424
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人