11月28日九十节作业(自然语言处理-词向量)学习总结

本文介绍了词向量作为自然语言处理基础的重要性,详细阐述了从EmbeddingLookup到CBOW和Skip-gram模型的转换过程,展示了这两种模型如何赋予词向量语义信息。CBOW通过上下文预测中心词,而Skip-gram则由中心词推断上下文。此外,还概述了使用飞桨实现Skip-gram模型的训练流程,包括数据处理、网络定义、训练和评估阶段。
摘要由CSDN通过智能技术生成

一、词向量是表示自然语言里单词的一种方法,是自然语言处理的重要基础和前提

二、把词转化为向量:

Embedding Lookup: 用一个特定的表格(也可以用词典的数据结构,但对计算效率有影响)来储存特定词语的向量,表格第一列为词语,后面为词语对应的向量,通过映射关系进行查找进而转化

三、让向量具有语义信息

        1、CBOW:通过上下文的词向量推理中心词。

        2、Skip-gram根据中心词推理上下文

        3、注:一般来说,CBOW比Skip-gram训练速度快,训练过程更加稳定

四、算法实现

        输入层  -->  隐藏层 -->  输出层

CBOW神经网络:

Skip-gram神经网络:

 

 由于CBOW是通过上下文来推理中心词,一般输入层需要输入较多的数据(上下文),通过对上下文内容的处理计算得到中心词;而Skip-gram是通过中心词来推理上下文,一般输入层只输入一个数据(中心词),然后计算出上下文,进而反过来得到中心词的语义信息。

五、使用飞桨实现Skip-gram的训练模型过程

  1. 数据处理:选择需要使用的数据,并做好必要的预处理工作。

  2. 网络定义:使用飞桨定义好网络结构,包括输入层,中间层,输出层,损失函数和优化算法。

  3. 网络训练:将准备好的数据送入神经网络进行学习,并观察学习的过程是否正常,如损失函数值是否在降低,也可以打印一些中间步骤的结果出来等。

  4. 网络评估:使用测试集合测试训练好的神经网络,看看训练效果如何。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值