Datawhale AI 夏令营 task2 个人学习笔记-CSDN博客

本文链接：https://blog.csdn.net/m0_74539740/article/details/140504342

1. 环境配置
- 运行环境:魔搭平台
- 需要安装的包:
- torchtext:用于自然语言处理任务,提供数据预处理、词汇构建等功能
- jieba:中文分词库
- sacrebleu:评估机器翻译质量,计算BLEU得分
- spacy:支持70+语言的自然语言处理库

2. 数据预处理
- 清洗和规范化数据:
- 去除无关信息,如HTML标签、特殊字符等
- 统一格式,如转换为小写,标准化日期、数字等
- 分句和分段,便于处理和训练
- 分词:
- 使用jieba进行中文分词
- 使用spacy进行英文分词
- 构建词汇表和词向量:
- 从训练数据中收集词汇,构建词汇表
- 使用预训练词向量或自己训练词向量
- 序列截断和填充:
- 限制序列长度,避免冗余信息
- 使用<PAD>标记填充至相同长度
- 添加特殊标记:
- 添加<SOS>和<EOS>标记
- 为未见词添加<UNK>标记
- 数据增强:
- 随机替换或删除词
- 使用同义词替换
- 数据分割:
- 划分训练集、验证集和测试集

3. 模型训练
- 编码器-解码器模型:
- 编码器:将源语言文本编码为向量表示
- 解码器:根据编码器输出生成目标语言文本
- 模型架构:
- 选择RNN、LSTM、GRU或Transformer等架构
- 定义模型参数,如层数、隐藏单元数等
- 训练过程:
- 初始化模型,加载预训练词向量或随机初始化
- 前向传播,生成预测文本
- 反向传播,计算损失并更新参数
- 优化策略:
- 选择优化器,如SGD、Adam等
- 调整学习率,使用衰减策略
- 模型评估:
- 使用BLEU得分评估生成文本与参考译文的相似度
- 监控验证集性能,避免过拟合
- 模型调优:
- 调整模型参数,如增加层数、改变隐藏单元数等
- 使用不同的数据增强策略,提高泛化能力