NLP新闻文本分类之5基于深度学习的文本分析2

Task05:基于深度学习的文本分类2

学习目标

  • 学习Word2Vec的使用和基础原理
  • 学习使用TextCNN、TextRNN进行文本表示
  • 学习使用HAN网络结构完成文本分类
    对于文本分类来说,FastText模型还不是最优的,虽然它可以提高学习效率。

文本表示方法3

词向量

Word2Vec
Word2Vec模型的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,Word2Vec模型可以从新增预料中学习到新增词的向量表达,是一种高效的在线学习算法。
Word2Vec主要思路:通过单词和上下文彼此预测,对应的两个算法分别为:

  • Skip-grams(SG):预测上下文
  • Continuous Bag of Words(CBOW):预测目标单词
    另外还提出了两种更高效的训练方法:
  • Hierarchical softmax
  • Negative sampling
    Skip-grams(SG)原理和网络结构
    直观理解:SG是给定input word来预测上下文;CBOW是给定上下文来预测input word。 如图:
    在这里插入图片描述
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值