skip-gram模型

最新推荐文章于 2024-07-03 14:49:20 发布

RLilyX

最新推荐文章于 2024-07-03 14:49:20 发布

阅读量2k

点赞数 1

文章标签： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_37801695/article/details/84946021

版权

Skip-gram模型原理参考链接：https://blog.csdn.net/rlnlo2pnefx9c/article/details/78747970

skip-gram模型原理

Skip-gram模型的输入为一个单词，输出为窗口大小h中各个单词的概率，如下图所示。
在这里插入图片描述
例如对于句子I always go to work by bus，对于单纯work，窗口大小2包括的单词为go，to，by，bus；训练输入的数据集为{x=work，y=go}、{x=work，y= to}、{x=work，y= by}、{x=work，y= bus}
由于字符串无法直接作为模型的输入输出，需要对字符串进行编码，将单词表示成一个one-hot向量，向量的维度为字典的单词量，如果训练词典包含10000个单词，那么单词编码为10000维的，单词对应的位置值为1，其他位置值为0，如下图所示。其中，隐层的作用是对输入向量进行特征提取，隐层的行数为10000，列数为特征数，特征数可调。
在这里插入图片描述
因为ont-hot编码只有一维非0，词向量与权值W1相乘，W1的维度为10000300，得到特征维度为1300，特征与权值W2相乘（权值共享），经Softmax后得到每个词的概率。

skip-gram模型优化

当训练词较多时，权值的维度较高，参数多，需要大量的数据进行参数训练。需要对模型进行优化
1，在他们的模型中将常见单词对或短语视为单个“单词”。
2，对频繁的词进行抽样以减少训练样例的数量。
3，使用他们所谓的“负抽样”技术来修改优化目标，使得每个训练样本只更新模型权重的一小部分。

skip-gram模型实现

一般我们的模型都是由以下两步构成，第一步是构建图，第二步是执行图。参考以下链接
https://blog.csdn.net/stalbo/article/details/79255462
https://blog.csdn.net/qq_24003917/article/details/80390005
https://github.com/NELSONZHAO/zhihu

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
skip-gram模型

Skip-gram模型原理参考链接：https://blog.csdn.net/rlnlo2pnefx9c/article/details/78747970skip-gram模型原理Skip-gram模型的输入为一个单词，输出为窗口大小h中各个单词的概率，如下图所示。例如对于句子I always go to work by bus，对于单纯work，窗口大小2包括的单词为go，to，by，...
复制链接

扫一扫

RLilyX CSDN认证博客专家 CSDN认证企业博客

码龄7年

42: 原创

74万+: 周排名

103万+: 总排名

29万+: 访问

: 等级

2629: 积分

88: 粉丝

162: 获赞

35: 评论

914: 收藏

私信

关注

热门文章

分类专栏

最新评论

概率密度估计方法-核密度估计和高斯混合分布
WHOILDAY: matlab里边有高斯混合模型函数
TensorFlow有两种数据格式NHWC和NCHW
努漫漫: 博主您好，文中“最佳实践：设计网络时充分考虑两种格式，最好能灵活切换，在 GPU 上训练时使用 NCHW 格式，在 CPU 上做预测时使用 NHWC 格式”这里如何做到灵活切换呢，现在有已经在GPU上训练好的NCHW格式的网络，不知道使用CPU做预测时如何加载模型，在这个问题上好几天了，还是不知道怎么解决，头大
概率密度估计方法-核密度估计和高斯混合分布
泰勒你真行: 你好楼主，我想问一下你有没有关于混合高斯核函数的代码
数学基础-小波变换的原理及其应用
m0_65579322: 谢谢大神
行为识别-从信号分析到机器学习到深度学习
weixin_44625942: 行为的相似度匹配博主是用的那种机器学习？

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。