自然语言处理 词向量

自然语言处理中,词向量是将文字转化为计算机可理解的形式的关键。本文介绍了离散表示(如one-hot、bag of words、TF-IDF、N-gram)和分布式表示(共现矩阵、NNLM、CBOW、word2vec)的编码方式及特点。离散表示忽略了词序,而分布式表示利用上下文信息,但面临维度爆炸和稀疏性问题。词向量方法如word2vec有助于处理多义词,但在某些情况下表现有限。
摘要由CSDN通过智能技术生成

为把人们所理解的自然语言 让 计算机也能够 认识并且操作,需要将人的语言(即文字)转换成计算机的语言(即数字)

我们将其称为词向量。

把文字转换成词向量有多种编码方式:大致分为两类,离散表示和分布式表示。

离散表示即 无法衡量词与词之间的关系,即在编码过程中并不考虑词的顺序,以此为代表的编码方式包括:

                 one-hot 

                 bag of words

                TF-IDF

                N-gram

分布式表示 即用一个词附近的其他词来表示这个词。以此为代表的编码方式包括:

             共现矩阵

             NNLM 神经网络语言模型

             CBOW(continue bag of  words)

接下来简单介绍这几种编码方式的特点:

 

one-hot:把语料中的所有词列在一个词典中,每个词都有唯一的索引,在词典中的顺序与在语料中的顺序无关,如果词典 里有十个词,那么这个词典就是1*10维的,对于语料中的每一个词,都构造一个1*10维的向量,其中语料中的词出现过一次或者多次,多记为1,没出现过则记为0.

缺点: 

词矩阵太稀疏,并且没有考虑词出现的频率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值