自然语言处理词向量

最新推荐文章于 2024-03-01 19:31:18 发布

云治

最新推荐文章于 2024-03-01 19:31:18 发布

阅读量1.6k

点赞数 1

分类专栏：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37896011/article/details/81628643

版权

自然语言处理中，词向量是将文字转化为计算机可理解的形式的关键。本文介绍了离散表示（如one-hot、bag of words、TF-IDF、N-gram）和分布式表示（共现矩阵、NNLM、CBOW、word2vec）的编码方式及特点。离散表示忽略了词序，而分布式表示利用上下文信息，但面临维度爆炸和稀疏性问题。词向量方法如word2vec有助于处理多义词，但在某些情况下表现有限。

摘要由CSDN通过智能技术生成

为把人们所理解的自然语言让计算机也能够认识并且操作，需要将人的语言（即文字）转换成计算机的语言（即数字）

我们将其称为词向量。

把文字转换成词向量有多种编码方式：大致分为两类，离散表示和分布式表示。

离散表示即无法衡量词与词之间的关系，即在编码过程中并不考虑词的顺序，以此为代表的编码方式包括：

one-hot

bag of words

TF-IDF

N-gram

分布式表示即用一个词附近的其他词来表示这个词。以此为代表的编码方式包括：

共现矩阵

NNLM 神经网络语言模型

CBOW(continue bag of words)

接下来简单介绍这几种编码方式的特点：

one-hot:把语料中的所有词列在一个词典中，每个词都有唯一的索引，在词典中的顺序与在语料中的顺序无关，如果词典里有十个词，那么这个词典就是1*10维的，对于语料中的每一个词，都构造一个1*10维的向量，其中语料中的词出现过一次或者多次，多记为1，没出现过则记为0.

缺点：

词矩阵太稀疏，并且没有考虑词出现的频率。

最低0.47元/天解锁文章

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。