【自然语言处理】实验2布置：Word2Vec & TransE案例

最新推荐文章于 2024-04-29 15:32:32 发布

Can__er

最新推荐文章于 2024-04-29 15:32:32 发布

阅读量1k

点赞数 1

分类专栏： machine learning 文章标签：自然语言处理 word2vec 深度学习

本文链接：https://blog.csdn.net/Can__er/article/details/130419519

版权

machine learning 专栏收录该内容

27 篇文章 17 订阅

订阅专栏

该文介绍了使用学堂在线《自然语言处理》课程中的实验，涉及Word2Vec和TranE的实现，重点讲解了Seq2seq模型在中英机器翻译中的应用，包括编码器和解码器的工作原理。实验提供了数据预处理、模型训练和评测的实现，并提出了模型改进的方向，如使用GRU/LSTM、双向编码器、注意力机制和预训练词向量等。

摘要由CSDN通过智能技术生成

NLP_class

学堂在线《自然语言处理》实验课代码+报告，授课老师为刘知远老师。课程链接：https://www.xuetangx.com/training/NLP080910033761/1017121?channel=i.area.manual_search。

持续更新中。
所有代码为作者所写，并非最后的“标准答案”，只有实验6被扣了1分，其余皆是满分。仓库链接：https://github.com/W-caner/NLP_classs。此外，欢迎关注我的CSDN：https://github.com/W-caner/NLP_classs。
部分数据集由于过大无法上传，我会在博客中给出下载链接。如果对代码有疑问，有更好的思路等，也非常欢迎在评论区与我交流~

实验1： Word2Vec & TranE的实现

案例简介

seq2seq是神经机器翻译的主流框架，如今的商用机器翻译系统大多都基于其构建，在本案例中，我们将使用由NIST提供的中英文本数据训练一个简单的中英翻译系统，在实践中学习seq2seq的具体细节，以及了解机器翻译的基本技术。

Seq2seq模型

从根本上讲，机器翻译需要将输入序列（源语言中的单词）映射到输出序列（目标语言中的单词）。正如我们在课堂上讨论的那样，递归神经网络（RNN）可有效处理此类顺序数据。机器翻译中的一个重要难题是输入和输出序列之间没有一对一的对应关系。即，序列通常具有不同的长度，并且单词对应可以是不平凡的（例如，彼此直接翻译的单词可能不会以相同的顺序出现）。

为了解决这个问题，我们将使用一种更灵活的架构，称为seq2seq模型。该模型由编码器和解码器两部分组成，它们都是RNN。编码器将源语言中的单词序列作为输入，并输出RNN层的最终隐藏状态。解码器与之类似，除了它还具有一个附加的全连接层（带有softmax激活），用于定义翻译中下一个单词的概率分布。以此方式，解码器本质上用作目标语言的神经语言模型。关键区别在于，解码器将编码器的输出用作其初始隐藏状态，而不是零向量。

数据和代码

本案例使用了一个小规模的中英平行语料数据，并提供了一个简单的seq2seq模型实现，包括数据的预处理、模型的训练、以及简单的评测。

评分标准

分数由两部分组成，各占50%。第一部分得分为对于简单seq2seq模型的改进，并撰写实验报告，改进方式多样，下一小节会给出一些可能的改进方向。第二分部得分为测试数据的评测结果，我们将给出一个中文测试数据集（test.txt），其中每一行为一句中文文本，需要同学提交模型做出的对应翻译结果，助教将对于大家的提交结果统一机器评测，并给出分数。请以附件形式提交实验报告！