Deep Learning-TensorFlow (6) CNN卷积神经网络_Word2vec及NCE

最新推荐文章于 2024-08-19 09:22:40 发布

DiamonJoy

最新推荐文章于 2024-08-19 09:22:40 发布

阅读量7.6k

点赞数 1

分类专栏： TensorFlow 文章标签： Deep Learning TensorFlow CNN word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/diamonjoy_zone/article/details/67638243

版权

该博客介绍了如何使用TensorFlow构建Skip-Gram模型的word2vec，通过噪声对比估计（NCE）进行训练，简化softmax计算，实现词嵌入。文章详细阐述了NCE的原理，并提供了TensorFlow中nce_loss的实现逻辑，同时展示了在中文小说《斗破苍穹》上的训练应用。

摘要由CSDN通过智能技术生成

环境：Win8.1 TensorFlow1.0.1

软件：Anaconda3 （集成Python3及开发环境）

TensorFlow安装：pip install tensorflow (CPU版) pip install tensorflow-gpu (GPU版)

参考文档：

1. TensorFlow 官方文档中文版——字词的向量表示

2. peghoty@CSDN——word2vec 中的数学原理详解（五）基于 Negative Sampling 的模型

3. multiangle@CSDN——tensorflow笔记:使用tf来实现word2vec

完整代码参考 multiangle，修改部分 API 可在 @DiamonJoy下载

1. Word2vec

本文将解析建立 TensorFlow 模型 word2vec 学习文字的向量表示即 词嵌套(word embedding)。

关于 word embedding 的基本介绍可查看参考文档1，学习目标总结为将离散符号组成的词汇嵌套于一个连续的向量空间，且语义近似的词汇被映射为相邻的数据点。同时，学习模型还依赖于分布式假设，其核心思想为出现于上下文情景中的词汇都有相类似的语义，因此预测方法则试图直接从某词汇的邻近词汇对其进行预测，在此过程中利用已经学习到的小型且稠密的嵌套向量。

Word2vec 是一种可以进行高效率词嵌套学习的预测模型。其两种变体分别为：连续词袋模型（CBOW）及Skip-Gram 模型。CBOW 根据源词上下文词汇（'the cat sits on the'）来预测目标词汇（例如，‘mat’），而 Skip-Gram 模型做法相反，它通过目标词汇来预测源词汇。相比之下，Skip-Gram 模型将每个“上下文-目标词汇”的组合视为一个新观察量，这种做法在大型数据集中会更为有效。本文基于 Skip-Gram 建立 TensorFlow 模型。

2. 噪声对比估计(NCE)

神经概率化语言模型通常使用极大似然法 (ML) 进行训练，其中通过 softmax function 来最大化当提供前一个单词 h (代表 "hi

最低0.47元/天解锁文章

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。