Datewhale AI 夏令营基于术语词典干预的机器翻译笔记

最新推荐文章于 2024-08-21 18:14:50 发布

2301_81806853

最新推荐文章于 2024-08-21 18:14:50 发布

阅读量228

点赞数 4

文章标签：机器学习

本文链接：https://blog.csdn.net/2301_81806853/article/details/140423991

版权

赛题数据分析

1.!pip install torchtext
```
这一行是在命令行中运行的，用于安装`torchtext`库，它是`PyTorch`的一个扩展库，提供了很多用于自然语言处理任务的便捷功能，比如数据集加载、文本处理等。由于`torchtext`已经被标记为弃用，所以会有警告信息出现。

2. 导入`PyTorch`和其他相关模块：
```python
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader

这些行导入了PyTorch的核心库，nn模块用于构建神经网络，optim模块包含了优化器，Dataset和DataLoader用于数据处理，get_tokenizer用于获取分词器，Counter是collections模块中的一个类，用于计数字典元素的个数。

NLP知识

自然语言处理（NLP）是研究如何让计算机理解和响应人类语言的科学技术。它涵盖了许多子领域，包括但不限于：
1.语言模型：这是一种数学模型，用来描述语言中单词序列的概率分布，常见类型有n-gram模型和基于神经网络的语言模型。
2.分词：这是将文本切分成单独的词汇单元（如单词或符号）的过程，是NLP任务的基础步骤之一。
3.文本嵌入：这是指将文本转换成机器可以理解的数值向量表示的过程，常用的文本嵌入方法有Word2Vec和GloVe。
4.词性标注：确定文本中单词的语法类别，如名词、动词或形容词。
5.命名实体识别：从文本中识别特定的实体，如人名、地名或组织名。
6.依存句法分析：分析句子中单词之间的依赖关系，揭示它们是如何组合在一起的。
7.语义角色标注：识别句子中各个成分的角色和意义。
8.情感分析：判断文本的情感倾向，如正面、负面或中立。
9.机器翻译：将一种语言自动翻译成另一种语言。
10.问答系统：构建可以从文本中提取答案的系统。
11.文本摘要：自动生成文本的简洁版本。
12.语音识别：将口头语言转换成书面形式。
13.对话系统：创建能够与用户进行自然对话的系统，如聊天机器人。
这些只是NLP领域的部分知识，每个领域都有其复杂性和挑战。

数据处理思路

安装torchtext库，尽管该库已被标记为弃用，但它仍然用于处理自然语言数据，特别是在早期版本的PyTorch生态系统中很常见。导入了torch, torch.nn, torch.optim, torch.utils.data.Dataset, torch.utils.data.DataLoader 和 collections.Counter。这些是PyTorch框架的核心组件，用于构建神经网络模型、优化算法、数据集和数据加载器，以及计数对象的常用工具。

具体BLUE4的评估指标

最终的BLEU4分数 ≈ （加权几何平均） * 1（BP）

2301_81806853

关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Datewhale AI 夏令营基于术语词典干预的机器翻译笔记

1.!```这一行是在命令行中运行的，用于安装`torchtext`库，它是`PyTorch`的一个扩展库，提供了很多用于自然语言处理任务的便捷功能，比如数据集加载、文本处理等。由于`torchtext`已经被标记为弃用，所以会有警告信息出现。2. 导入`PyTorch`和其他相关模块：```python。
复制链接

扫一扫