Pytorch学习2--词向量

最新推荐文章于 2022-07-12 12:54:54 发布

Sssserein

最新推荐文章于 2022-07-12 12:54:54 发布

阅读量386

点赞数

分类专栏： PyTorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/s11235218/article/details/118529538

版权

本文介绍了词表示的发展，包括离散表示如One-hot和词袋模型的优缺点，以及分布式表示的Word2Vec Skip-Gram模型。接着讨论了语言模型的重要性，特别是统计语言模型如N-gram的优缺点和神经网络语言模型，如前馈神经网络和循环神经网络（RNN）及其长期依赖问题，最后提到了LSTM为解决此问题的改进。

摘要由CSDN通过智能技术生成

在计算机中表示一个词的问题：

不能分辨细节差别；
需要大量人为干预；
偏向主观；
无法发现新词；
难以精确计算词之间的相似度

词表示发展：

离散表示

词向量表示One-hot：一个词可以表示为One-Hot 向量（一维为1 其余维为0的向量），也叫局部表示。离散表示的缺点是词与词之间没有距离的概念，与事实不符
文本表示Bag of words 词袋模型: 文本可以看作是一句话，或者几句话组成的短文本。文本表示就是将一段短文本表示为向量。词袋模型是一种非常经典的文本表示。顾名思义，它就是将字符串视为一个 “装满字符（词）的袋子” ，袋子里的词语是随便摆放的。而两个词袋子的相似程度就以它们重合的词及其相关分布进行判断。

词袋模型的优点:
简单，方便，快捷; 在语料充足的情况下，对于简单的自然语言处理任务效果不错。如文本分类。

词袋模型的缺点

其准确率往往比较低。凡是出现在文本中的词一视同仁，不能体现不同词在一句话中重要性的不同。
无法关注词语之间的顺序关系，这是词袋模型最大的缺点。如“武松打老虎”跟“老虎打武松”在词袋模型中被认为是一样的。

词袋模型与one-hot的关系
词袋模型用于文本表示，将文本表示为向量。如果对文本进行分词，如果文本中的每个词用one-hot形式表示，然后把每个词的one-hot向量相加

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。