xue
学
tu
途
Hello,又是一个分享的日子,上期博主介绍了BP神经网络回归---房价预测,想把整体的BP神经网络的应用都掌握的小伙伴,可以去翻一下。当然啦,还没了解原理的小伙伴也可以去看一下深度学习开端---BP神经网络。
这期,博主给大家分享如何用BP神经网络对招聘数据进行分类,从而训练出一个可以分类招聘信息的神经网络模型。
下面就开始我们新的征程。
自然语言处理
文本表示
计算机是无法直接处理文本信息的,所以,在我们构建神经网络之前,要对文本进行一定的处理。
相信大家对独热编码(one-hot encode)应该不陌生了,虽说它能把所有文本用数字表示出来,但是表示文本的矩阵会非常的稀疏,极大得浪费了空间,而且这样一个矩阵放入神经网络训练也会耗费相当多的时间。
独热编码示意图
为此,有些聪明的小伙伴提出了词向量模型(Word2Vec)。词向量模型是一种将词的语义映射到向量空间的技术,说白了就是用向量来表示词,但是会比用独热编码用的空间小,而且词与词之间可以通过计算余弦相似度来看两个词的语义是否相近。下面给大家展示Word2Vec的示意图。
图片来源于网络
目前Word2Vec技术有好几种:CBOW、Skip-gram和GloVe,这里限于篇幅,且我们的实验用的词向量模型是Skip-gram,这里只介绍Skip-gram模型。博主会在后期更新一篇新的推文介绍另外两个的具体细节,它们总体的原理和Skip-gram大致相同。