Datawhale AI 夏令营 task2

最新推荐文章于 2024-10-04 22:36:54 发布

2301_81627791

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量640

点赞数 23

文章标签：人工智能开发语言

本文链接：https://blog.csdn.net/2301_81627791/article/details/140495405

版权

首先进行配置环境

pip install torchtext

pip install jieba

pip install sacrebleu

安装 spacy 用于英文的 tokenizer（分词，就是将句子、段落、文章这种长文本，分解为以字词为单位的数据结构，方便后续的处理分析工作）在相应网址：https://spacy.io/usage找到代码进行安装

可以使用 pip show spacy 命令在终端查看版本

然后我们从该路径下：https://github.com/explosion/spacy-models/releases 安装对应版本的 en_core_web_trf 语言包，我的 en_core_web_trf 3.7.3 版本的要求 spaCy >=3.7.2,<3.8.0，刚好满足我的 3.7.5的 spacy!

将下载到本地的压缩包上传到魔搭平台上的 dataset 目录下:

pip install ../dataset/en_core_web_trf

pip install -U pip setuptools wheel -i https://pypi.tuna.tsinghua.edu.cn/simple pip install -U 'spacy[cuda12x,transformers,lookups]' -i https://pypi.tuna.tsinghua.edu.cn/simple pip install ./dataset/en_core_web_trf-3.7.3-py3-none-any.whl

进行数据预处理

清洗和规范化数据
构建词汇表和词向量
分词
序列截断和填充
添加特殊标记
数据增强
数据分割

第三部进行模型训练

说到神经机器翻译就不得不提编码器-解码器模型，或编码器-解码器框架（EncoderDecoder Paradigm）。本质上，编码器解码器模型是描述输入输出之间关系的一种方式。编码器解码器这个概念在日常生活中并不少见。

例如，在电视系统上为了便于视频的传播，会使用各种编码器将视频编码成数字信号，在客户端，相应的解码器组件会把收到的数字信号解码为视频。另外一个更贴近生活的例子是电话，它通过对声波和电信号进行相互转换，达到传递声音的目的。

这种“先编码，再解码”的思想被应用到密码学、信息论等多个领域。不难看出，机器翻译问题也完美的贴合编码器解码器结构的特点。可以将源语言编码为类似信息传输中的数字信号，然后利用解码器对其进行转换，生成目标语言。下面就来看一下神经机器翻译是如何在编码器解码器框架下进行工作的。

最后进行翻译质量评价

人们在使用机器翻译系统时需要评估系统输出结果的质量。这个过程也被称作机器翻译译文质量评价，简称为译文质量评价（Quality Evaluation of Translation）。在机器翻译的发展进程中，译文质量评价有着非常重要的作用。不论在系统研发的反复迭代中，还是在诸多的机器翻译应用场景中，都存在大量的译文质量评价环节。从某种意义上说，没有译文质量评价，机器翻译也不会发展成今天的样子。比如，本世纪初研究人员提出了译文质量自动评价方法 BLEU（Bilingual Evaluation Understudy）（Task 1知识文档已详细介绍过）。该方法使得机器翻译系统的评价变得自动、快速、便捷，而且评价过程可以重复。正是由于 BLEU 等自动评价方法的提出，机器翻译研究人员可以在更短的时间内得到译文质量的评价结果，加速系统研发的进程。

传统观点把翻译分为“信”、“达”、“雅”三个层次，而忠诚度体现的是一种“信”的思想，而流畅度体现的是一种“达”的思想。不过“雅”在机器翻译评价中还不是一个常用的标准，而且机器翻译还没有达到“雅”的水平，是未来所追求的目标。给定评价标准，译文质量评价有很多实现方式，下图给出了机器翻译译文评价方法的逻辑关系图：

人工评价。当需要对系统进行准确的评估时，往往采用人工评价。比如，对于机器翻译的一些互联网应用，在系统上线前都会采用人工评价对机器翻译系统性能进行测试。当然，这种方法的时间和人力成本是最高的。
有参考答案的自动评价。由于机器翻译系统研发过程中需要频繁地对系统性能进行评价，这时可以让人标注一些正确的译文，之后把这些译文作为参考答案与机器翻译系统输出的结果进行比对。这种自动评价的结果获取成本低，可以多次重复，而且可以用于对系统结果的快速反馈，指导系统优化的方向。
无参考答案的自动评价。在很多应用场景中，在系统输出译文时，使用者希望提前知道译文的质量，即使这时并没有可比对的参考答案。这样，系统使用者可以根据这个对质量的“估计”结果有选择地使用机器翻译译文。严格意义上说，这并不是一个传统的译文质量评价方法，而是一种对译文置信度和可能性的估计。
自我反思：

进行到数据预处理时只会去除一些无关数据，后边构建词汇表和词向量

等就不会弄了
改进方向：还是没有深刻理解所要做的内容，后续对其有所完善