把文字转换成向量

不写代码的程序员~zs

于 2021-08-18 16:09:39 发布

阅读量2.5k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理 word2vec nlp

原文链接：https://blog.csdn.net/shenzhiping12/article/details/93797970?ops_request_misc=&request_id=&biz_id=102&utm_term=%E6%96%87%E6%9C%AC%E8%BD%AC%E6%8D%A2%E6%88%90%E5%90%91%E9%87%8F&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduweb~default-5

版权

自然语言处理专栏收录该内容

15 篇文章

订阅专栏

把文字转换成词向量有多种编码方式：大致分为两类，离散表示和分布式表示。

离散表示即无法衡量词与词之间的关系，即在编码过程中并不考虑词的顺序，

分布式表示即用一个词附近的其他词来表示这个词。

离散： one-hot ，词袋模型(bag of words)，N-gram

分布式：共现矩阵，NNLM 神经网络语言模型，CBOW(continue bag of words)

one-hot:把语料中的所有词列在一个词典中，每个词都有唯一的索引，在词典中的顺序与在语料中的顺序无关，如果词典里有十个词，那么这个词典就是1*10维的，对于语料中的每一个词，都构造一个1*10维的向量，其中语料中的词出现过一次或者多次，多记为1，没出现过则记为0.

缺点：

词矩阵太稀疏，并且没有考虑词出现的频率。

Bag Of Words：词袋模型，会统计词在语料中出现的次数

是one hot词向量的加和。用元素的频率表示文本的特征。

N-gram，N代表是几元分词，（比如如果是bi-gram就是二元分词，用每两个相邻的词作为一个词作构建向量）

离散表示具有的缺点：

1 词表维度随着语料库增长膨胀

2 n-gram词序列随着语料库膨胀更快

3 数据稀疏的问题

共现矩阵：主要用于发现主题，（n个词共同出现的次数），使用一个对称的局域窗，窗口的大小表示词左右的几个词，将共现矩阵的行或者列作为词向量，

缺点：向量维数随词典大小线性增长解决方法：降维 PCA SVD

存储整个词典所需空间消耗巨大

矩阵稀疏

NNLM：神经网络语言模型用前N个词去推测最后一个词

CBOW :用左右附近的词去推测中间的词，相比NNLM 去掉了隐层，用求和代替拼接。

word2vec:skip-gram与CBOW完全相反的思路，是通过当前这个词去预测其之前之后的词。

缺点：对多义词无法很好的表示。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。