汐月教育之理解TensorFlow（四）词向量

最新推荐文章于 2024-02-27 00:12:52 发布

JUDGE_MENT

最新推荐文章于 2024-02-27 00:12:52 发布

阅读量870

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_23137713/article/details/56277452

版权

作者：JUDGE_MENT

邮箱：gao19920804@126.com

CSDN博客：http://blog.csdn.net/sinat_23137713

最后编辑时间：2016.12.5 V1.1

声明：

1）该资料结合官方文档及网上大牛的博客进行撰写，如有参考会在最后列出引用列表。

2）本文仅供学术交流，非商用。如果不小心侵犯了大家的利益，还望海涵，并联系博主删除。

3）转载请注明出处。

4）本文主要是用来记录本人初学Tensorflow时遇到的问题，特此记录下来，因此并不是所有的方法（如安装方法）都会全面介绍。希望后人看到可以引以为鉴，避免走弯路。同时毕竟水平有限，希望有饱含学识之士看到其中的问题之后，可以悉心指出，本人感激不尽。

一. 为什么要有词向量？

对于物体或语音识别这一类的任务，我们所需的全部信息已经都存储在原始数据（图片中所有单个原始像素点强度值或者音频中功率谱密度的强度值）中（显然人类本身就是依赖原始数据进行日常的物体或语音识别的）。

然而，自然语言处理系统通常将词汇作为离散的单一符号，例如 "cat" 一词或可表示为 Id537 ，而 "dog" 一词或可表示为 Id143。这些符号编码毫无规律，无法提供不同词汇之间可能存在的关联信息。

可见，将词汇表达为上述的独立离散符号将进一步导致数据稀疏，使我们在训练统计模型时不得不寻求更多的数据。而词汇的向量表示将克服上述的难题。

二. vord2vec

Word2vec是一种可以进行高效率词嵌套学习的预测模型。

其两种变体分别为：连续词袋模型（CBOW）及Skip-Gram模型。

从算法角度看，这两种方法非常相似，其区别为CBOW根据源词上下文词汇（'the cat sits on the'）来预测目标词汇（例如，‘mat’），而Skip-Gram模型做法相反，它通过目标词汇来预测源词汇。

Skip-Gram模型采取CBOW的逆过程的动机在于：CBOW算法对于很多分布式信息进行了平滑处理（这里说的平滑是指将输入向量全部累加起来）（例如将一整段上下文信息视为一个单一观察量）。

很多情况下，对于小型的数据集，这一处理是有帮助的。

相形之下，Skip-Gram模型将每个“上下文-目标词汇”的组合视为一个新观察量，这种做法在大型数据集中会更为有效。本教程余下部分将着重讲解Skip-Gram模型

三.神经网络模型

终于这个模型使用softmax之后就可以不用考虑负样本了，本身就是归一化

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
汐月教育之理解TensorFlow（四）词向量

作者：JUDGE_MENT邮箱：[email protected]博客：http://blog.csdn.net/sinat_23137713最后编辑时间：2016.12.5 V1.1声明：1）该资料结合官方文档及网上大牛的博客进行撰写，如有参考会在最后列出引用列表。2）本文仅供学术交流，非商用。如果不小心侵犯了大家的利益，还望海涵
复制链接

扫一扫

JUDGE_MENT CSDN认证博客专家 CSDN认证企业博客

码龄9年

17: 原创

110万+: 周排名

170万+: 总排名

15万+: 访问

: 等级

1166: 积分

28: 粉丝

42: 获赞

17: 评论

161: 收藏

私信

关注

热门文章

分类专栏

最新评论

Matlab传统神经网络函数:Newff的使用方法记录
诙色琉璃: 你好怎么取消掉偏置？
Matlab传统神经网络函数:Newff的使用方法记录
雏田Sunshine: 您好，[alphabet,targets]= prprob; 这个prprob函数在哪里啊，我的matlab中找不到这个函数，方便的话能分享一下吗？做实验要用，可是一直显示找不到，有点焦急。
Ubuntu16.04+Pycharm+Anaconda配置
种棒影妞: 楼主，conda 创建两个虚拟环境比如一个是python=2.7,一个是python=3.6，在2.7环境中想安装tensorflow-cpu=1.0.0 caffe,在3.6环境中希望安装tensorflow-gpu=1.12.0，caffe2，这样可以实现吗？为什么我在2.7环境中安装的tensorflow import的时候她总是在寻找libcublas.so.9.0 这个讨厌的家伙？
使用Gephi绘制动态网络的三种方法
咻咻ing: 亲测可用的：https://blog.csdn.net/meifannao789456/article/details/83277957
使用Gephi绘制动态网络的三种方法
咻咻ing 回复青玄hhh: 不能用，请看正确的文档：https://blog.csdn.net/meifannao789456/article/details/83277957

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。