NLP笔记

本来是想要了解attention 机制的,论文看不下去;在B 站发现这个宝藏视频,讲解nlp的很清晰。
基础要从最底下开始打,不能一口气吃成胖子。

https://www.bilibili.com/video/BV17A411e7qL?p=2

  • 用逻辑回归来进行0-1预测


sequential 模型的意思是把神经网络的层按顺序搭起来
先把one-hot 映射:embedding
在这里插入图片描述
在这里插入图片描述
vocabulary 是字典集的维度,embedding_v:dim 是词向量维度,word_num表示每个sequence的长度
其中v:
在这里插入图片描述
在这里插入图片描述
这一步设置完,我们可以得到输出是20 × 8 的矩阵 ;embedding层的参数数量为8W
在这里插入图片描述
flatten层将结果压扁,变成1*160的向量。
Dense 层,输出一个数,经过sigmod 激活函数映射为0-1的值
在这里插入图片描述

在这里插入图片描述
接着做编译compile,优化算法是RMSprop, 损失函数是 binary_crossentropy, 评价标准是acc
模型搭建好了,用训练数据拟合模型fit:
在这里插入图片描述
2w条训练,5k验证

训练完了之后,需要把测试数据作为输入:
在这里插入图片描述

  • RNN 来实现同样的过程

在这里插入图片描述
RNN 的思想是 连续输入多个,依次处理每一个;
当前状态 = 前一个状态+当前词 然后状态会依次传递下去
x0 是词向量维度 =32 由自己指定
h0是输出的维度,维度也是自己指定 的
其中A的大小如下: 只有一个A,随机初始化;通过训练得到参数
在这里插入图片描述

在这里插入图片描述
retrun_sequences= false 表示只输出最后一个结果向量 ,将之前每一步向量扔掉
在这里插入图片描述
rnn分析:由于状态是前后传递的关系,后面的单词必定和之前所有输入单词都有关;
按理来说,如果改变前面单词,后面状态也会改变;
但实际上在两个距离很长的单词里,改变前一个对后一个的影响几乎为0,这是不合理的。
rnn 擅长序列短的预测,对于lpng-term 会失效

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值