Pytorch学习3--文本分类

文本分类能做什么?
识别垃圾邮件、情感分析、主题分类等

文本分类在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:垃圾过滤,新闻分类,词性标注等等。它和其他的分类没有本质的区别,核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。但是文本也有自己的特点,根据文本的特点,文本分类的一般流程为:预处理;文本表示及特征选择;构造分类器;分类。

分类问题模型: 分类器
分类器是一个函数f,这个函数拿到输入x然后输出类别y。

情感分析

通常来讲,文本分类任务是指在给定的分类体系中,将文本指定分到某个或某几个类别中。被分类的对象有短文本,例如句子、标题、商品评论等等,长文本,如文章等。分类体系一般人工划分,例如:1)政治、体育、军事 2)正能量、负能量 3)好评、中性、差评。因此,对应的分类模式可以分为:二分类与多分类问题。

双向RNN
该结构的目的是输入一个序列,得到其在每个时刻的特征表示,即输出的每个时刻都用定长向量表示到该时刻的上下文语义信息。图中由下至上分别为输入层、前向隐层、后向隐层、输出层

具体来说,该双向循环神经网络分别在时间维以顺序和逆序——即前向(forward)和后向(backward)——依次处理输入序列,并将每个时间步RNN的输出拼接成为最终的输出层。这样每个时间步的输出节点,都包含了输入序列中当前时刻完整的过去和未来的上下文信息。注意,该网络的前向隐层和后向隐层之间没有连接。

在这里插入图片描述

循环神经网络
有时候当信息量太大时,简单RNN隐藏层是不能保证一次性记忆所有信息的,那么为了增加模型的表达能力,在有些循环神经网络隐藏层中会堆叠多个隐藏层,这样的神经网络我们成为深层循环神经网络。
在这里插入图片描述
CNN
能够将局域特征提取出来,是一个很好的特征提取方法。

卷积神经网络是一种多层的监督学习神经网络,隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函数对网络中的权重参数逐层反向调节,通过频繁的迭代训练提高网络的精度。卷积神经网络的低隐层是由卷积层和最大池采样层交替组成,高层是全连接层对应传统多层感知器的隐含层和逻辑回归分类器。第一个全连接层的输入是由卷积层和子采样层进行特征提取得到的特征图像。最后一层输出层是一个分类器,可以采用逻辑回归,Softmax回归甚至是支持向量机对输入图像进行分类。
Embedding层:

  • 首先把每个单词都embed成一个向量
  • 一句话中的n个词向量会被结合到一起
    卷积层:
  • 卷积层filter会被用作转化h个单词
  • 每一个单词的窗口都会被这个filter转化
    Pooling层:
  • 每一个滤波器转化过的向量都会被这个max over time pooling做一次汇总
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值