NLP 4

Word2Vec

将文本转为计算机可以理解的数字表达,我们在机器学习时采用的方法是TF-IDF,但TF-IDF是基于信息熵的一种统计手段,无法精准刻画词的上下文关系。Word2Vec是对基于上下文的词进行预测,在Word2Vec中,我们会设置一个中心词,以及时间窗口。根据预测的出发点和结束点的不同,分为Skip-grams方法和CBOW方法,SG方法是词为自变量,预测周围可能的词,CBOW方法是以周围的词为自变量,预测中心词。
word2vec.png

在训练方法上,为了优化计算,提出了Hierarchical softmax和Negative Sampling。

TextCNN

将词转为词向量后, 我们就可以使用深度学习的方式来进行预测,TextCNN是将CNN的优点发挥在文本分类中的一项应用。卷积具有权值共享,稀疏连接的特点,这与N-gram的特点吻合,可以高效提取上下文信息。

textcnn.png

TextRNN

CNN虽然通过卷积提取了上下文信息,但是对于序列信息是无法有效提取的。于是RNN及其变种LSTM,GRU被应用于文本分类中。
textrnn.png

HAN

递归神经网络会遇见遗忘问题,但是许多文章的核心内容是出现在文章开头,因此引入Attention机制,关注文章的核心部分。
HAN.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值