莫烦NLP学习笔记--02理解词语

词向量

如上一篇博客所述,文章可用TF-IDF算法表示为向量,相应的,词语也可以表示为特定的多维向量,即词向量。
在这里插入图片描述
只要是词语在一个方向上,我们就认为他们是相近的,这时我们就能用cosine 相似度来测量两个向量的夹角大小。
在这里插入图片描述
越有区分力的词可能越远离中心地带,因为他们和其他词都不像,而越通用,在每种场景都有的词,就可能越靠近原点。这时,点与点的距离就能告诉我们词的频率性特征。

理解:只要两个词总在一起出现,他们之间的关联性应该越强,距离应该也越近。我们想一想,如果一个词不仅出现的频率高,而且任何句子中都能出现,比如“在”,“你”,“吗”这一类的词,为了得到这些词的位置,机器需要不断计算他们之间的相关性。这个过程我们称之为机器学习或者模型训练。这些词每次训练的时候都想被拉扯到独立的空间,但是被太多不同方向的词拉来拉去,比如”在”这个字,训练“在这”的时候“在”字被拉扯到靠近“这”字的方向。训练“在家”的时候,“在”字将会更靠近“家”字,后面的训练也一样,所以“在”字因为频率太高,和很多字都能混搭,它就算是之中机器认为的“中性词”。

训练词向量

在这里插入图片描述
训练词向量可以直接在原始语料上做非监督学习,只要有各种各样的文章数据就行。总出现在类似的上下文中间的词关系越亲密。向量在一定程度上也越相近。

训练方法解释:训练时,我们取一小段文本,取出这些词的向量表示,比如取出除了“一”字以外的词向量,然后整合到一起,表示这些文字的整体向量,用这个整体向量预测最中间那个“一”。接下来在开始下一段文字的训练。将这个窗口挪动一格,用前后文预测“段”字,接着将窗口依次这样扫过所有文字,用所有的前后文预测中间词,这样计算机就能将前后文的关系搞清楚,
也可以用中间词预测前后文,只需要颠倒输入输出,它的假设是,在某个词的周围,应该都是和这个词有关系的词,所以当我们预测关联词的时候也就会拉近这些关联词的距离,把相近的词聚集到一起,从而得到所有的词向量。

词向量用法


可以直接把词向量当成词语特征输入到另一个模型里,此时可以说词向量是一种预训练特征。例如用word2vec 的方法预先训练好了词语的特征表达,然后在其他场景中拿着预训练结果直接使用。
在这里插入图片描述
或是用词向量进行加减运算,男人减掉女人的词向量,差不多就约等于公猫减掉母猫的词向量。寻找和莫烦一样风格的Java教学老师,类似于这样的加减运算,Python-Java=莫烦-什么?

CBOW

简述

Continuous Bag-of-Word即挑一个要预测的词,来学习这个词前后文中词语的意思。
举个例子,有这样一句话。我爱莫烦Python,莫烦Python通俗易懂。`模型在做的事情如图中所示,将这句话拆成输入和输出,用前后文的词向量来预测句中的某个词。
在这里插入图片描述
模型的输入输出可以是:

# 1
# 输入:[我,爱] + [烦,Python]
# 输出:莫

# 2
# 输入:[爱,莫] + [Python, ,]
# 输出:烦

# 3
# 输入:[莫,烦] + [,,莫]
# 输出:Python

# 4
# 输入:[烦,Python] + [莫,烦]
# 输出:

通过在大数据量的短语或文章中学习这样的词语关系,这个模型就能理解要预测的词和前后文的关系。而图中彩色的词向量就是这种训练过程的一个副产品。

用法

  1. 空间上的向量相加,然后就变成了句子的理解。 缺点:从直观上理解,就不是特别成立,因为它加出来以后,还是在这个词汇空间中的某个点, 你说它是句向量吧,好像也不行,说它是一个词的理解吧,好像也不对。
  2. 所以更常用的方式是将这些训练好的词向量当做预训练模型,然后放入另一个神经网络(比如RNN)当成输入,使用另一个神经网络加工后,训练句向量。

代码

https://github.com/MorvanZhou/NLP-Tutorials/blob/master/CBOW.py

Skip-Gram

在这里插入图片描述
把CBOW过程反过来,这样就剔除了之前不太合理的SUM求和过程。

代码

https://github.com/MorvanZhou/NLP-Tutorials/blob/master/skip-gram.py

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值