关于词向量

最新推荐文章于 2024-04-27 21:05:50 发布

夏末的初雪

最新推荐文章于 2024-04-27 21:05:50 发布

阅读量1.8k

点赞数

分类专栏：机器学习论文阅读文章标签：深度学习算法自然语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27717921/article/details/78659959

版权

参考论文：Efficient Estimation of Word Representations in
Vector Space

One-hot Represention

在深度学习没有如此如火如荼之前，语言模型的建立依靠的一般还是SVM，CRF等算法，为了将自然语言符号、数值化，One-hot Represention 成为了当时不错简单粗暴的词向量表示方法。
每个词都是茫茫词海中的一个1。
假设语料库中有V个词，那么语料库中的任一词都可以表示为一个长度为V的向量，另外，每个词都有一个unique的id，one-hot将向量中词id相应位置置为1，其他位置为0来表示这个词。因而，可以想象如果将V个词的one-hot represention形成V*V的矩阵，那么这个矩阵是多么稀疏。
优点：简单
缺点：1>容易形成词汇鸿沟，即不能刻词与词之间的相似性。2>当V足够大时，容易形成维数灾难

Distributed Representation

**

NNLM(Feedforward Neural Net Language Model )

**
针对One-hot Representation存在的问题，Distributed Representation最早有Hinton在1986年在《Learning distributed representations of concepts》提出，用一个具有固定长度的向量来表示一个词。Bengio在2003提出了NNLM语言模型训练词向量。NNLM的前向神经网络涉及到

最低0.47元/天解锁文章

夏末的初雪

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
关于词向量

参考论文：Efficient Estimation of Word Representations in Vector SpaceOne-hot Represention在深度学习没有如此如火如荼之前，语言模型的建立依靠的一般还是SVM，CRF等算法，为了将自然语言符号、数值化，One-hot Represention 成为了当时不错简单粗暴的词向量表示方法。每个词
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。