自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Datawhale AI 夏令营 第三期 task1 笔记

3.填写api_key。4.运行程序等待结果。

2024-07-28 00:11:10 245

原创 Datawhale AI 夏令营 task2 笔记

然而,翻译的传统标准“信、达、雅”中,“雅”仍是机器翻译追求的理想目标。综上所述,机器翻译系统的优化涉及预处理、模型构建和译文质量评价等多个环节,每个环节都至关重要。预处理包括数据清洗、格式统一、分词、构建词汇表和词向量等,这些步骤确保了输入文本的质量和信息的有效捕捉。进一步地,通过序列截断、填充、添加特殊标记以及数据增强技术,模型的鲁棒性和泛化能力得到增强,以应对复杂和未知的词汇。翻译质量通过人工、有参考和无参考的自动评价方式评估,这些方法各有优势,适用于不同场景。

2024-07-17 23:52:53 134

原创 Datawhale AI 夏令营 task1 笔记

随着计算机性能的提升和大规模平行语料库的出现,统计机器翻译开始兴起。早期的机器翻译系统主要采用基于规则的方法,这种方法依赖于语言学家编写的语法规则和词典进行翻译。其基本原理是“每一种语义在不同的语言当中都存在与其相对应的符号”,即将源语言中的单词替换为目标语言中表达相同含义的单词。统计机器翻译中最主流的方法包括基于词的统计机器翻译(Word-based MT)和基于短语的统计机器翻译(Phrase-based SMT),其流程一般包括预处理、句子对齐、词对齐、短语抽取、短语特征准备、语言模型训练等步骤。

2024-07-14 23:18:31 424

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除