Datewhale AI 夏令营 基于术语词典干预的机器翻译笔记

赛题数据分析

1.!pip install torchtext
   ```
   这一行是在命令行中运行的,用于安装`torchtext`库,它是`PyTorch`的一个扩展库,提供了很多用于自然语言处理任务的便捷功能,比如数据集加载、文本处理等。由于`torchtext`已经被标记为弃用,所以会有警告信息出现。

2. 导入`PyTorch`和其他相关模块:
   ```python
   import torch
   import torch.nn as nn
   import torch.optim as optim
   from torch.utils.data import Dataset, DataLoader

这些行导入了PyTorch的核心库,nn模块用于构建神经网络,optim模块包含了优化器,Dataset和DataLoader用于数据处理,get_tokenizer用于获取分词器,Counter是collections模块中的一个类,用于计数字典元素的个数。

NLP知识

自然语言处理(NLP)是研究如何让计算机理解和响应人类语言的科学技术。它涵盖了许多子领域,包括但不限于:
  1.语言模型:这是一种数学模型,用来描述语言中单词序列的概率分布,常见类型有n-gram模型和基于神经网络的语言模型。
  2.分词:这是将文本切分成单独的词汇单元(如单词或符号)的过程,是NLP任务的基础步骤之一。
  3.文本嵌入:这是指将文本转换成机器可以理解的数值向量表示的过程,常用的文本嵌入方法有Word2Vec和GloVe。
  4.词性标注:确定文本中单词的语法类别,如名词、动词或形容词。
  5.命名实体识别:从文本中识别特定的实体,如人名、地名或组织名。
  6.依存句法分析:分析句子中单词之间的依赖关系,揭示它们是如何组合在一起的。
  7.语义角色标注:识别句子中各个成分的角色和意义。
  8.情感分析:判断文本的情感倾向,如正面、负面或中立。
  9.机器翻译:将一种语言自动翻译成另一种语言。
  10.问答系统:构建可以从文本中提取答案的系统。
  11.文本摘要:自动生成文本的简洁版本。
  12.语音识别:将口头语言转换成书面形式。
  13.对话系统:创建能够与用户进行自然对话的系统,如聊天机器人。
这些只是NLP领域的部分知识,每个领域都有其复杂性和挑战。

 

数据处理思路

安装torchtext库,尽管该库已被标记为弃用,但它仍然用于处理自然语言数据,特别是在早期版本的PyTorch生态系统中很常见。导入了torch, torch.nn, torch.optim, torch.utils.data.Dataset, torch.utils.data.DataLoader 和 collections.Counter。这些是PyTorch框架的核心组件,用于构建神经网络模型、优化算法、数据集和数据加载器,以及计数对象的常用工具。

 

具体BLUE4的评估指标

最终的BLEU4分数 ≈ (加权几何平均) * 1(BP) 

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值