NLP知识整理(下)

本文深入探讨了NLP领域的机器学习和深度学习模型,重点讲解了LSTM的工作原理,包括普通RNN结构、遗忘门、更新门、细胞状态和输出门。此外,还介绍了TextCNN的构建,包括嵌入层、卷积层、池化层、拼接层和全连接层。FastText和朴素贝叶斯模型也进行了简要概述。
摘要由CSDN通过智能技术生成

机器学习模型

  • 在完成特征抽取后,我们就将文本型数据转化成了规范的数字格式数据,可以送入机器学习模型或深度学习模型进行训练了。如果采用机器学习的方式,比较适合的模型有LR,LinearSVC, NaiveBayse,如果向量的维度不是很高很稀疏,一些树类模型如RandomForest, Xgboost, LightGBM也可以对其进行训练。

深度学习模型

  • 随着近些年深度学习的发展,在计算力和数据量足够的条件下,深度学习越来越能发挥其深层特征抽取的能力,获得更好的预测效果和泛化效果。常见的模型有MLP, TextCNN, TextRNN, TextRCNN, LSTM, GRU, FastText,Bert… 这里以TextCNN举例讲解一个深度学习模型的构建

LSTM

  • LSTM是RNN的一个变体,目的是解决RNN循环次数增加后,会产生梯度消失现象导致导致模型不能很好的学习长期依赖信息的问题。

  • RNN结构中,本层输入和上层的输出用一个很简单的tanh进行融合。

普通RNN结构

遗忘门

  • 遗忘门由上层输出和本轮输入共同决定,决定的方式是sigmoid输出一个0-1的值(这个值往往可以看做是非0即1的),当这个值f为0时,之前的状态C(t-1)与之点乘变成0,之前的状态便被遗忘,反之之前的状态与1点乘,原始信息得以保留。
    在这里插入图片描述

更新门

  • 遗忘门是对之前的信息做一个过滤,来确定遗忘还是记住之前的信息状态C(t-1)
  • 除此之外,我们还要对当前输入信息X(t)做一个过滤,这就是更新门的作用
  • 更新门由两部分i(t)和C(t-1)组成,这两部分都由上轮输出h(t-1)和本轮输出x(t)共同决定,i(t)的作用是用一个sigmoid函数产生一个近似
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值