情感分析传统规则和深度学习笔记

在这里插入图片描述
人的最简单的判断思维,模型都是模仿人的思维过程
在这里插入图片描述
字典的整理,除了纯积极消极,好需要添加,否定词汇和程度副词
在这里插入图片描述
赋予整个句子的整体权重,而不是判断到某个词

在这里插入图片描述
半监督学习的词典扩充,基于已经分类的积极和消极的语句里面,统计里面其中一方经常出现,另外一方没有出现的词语,统计出来后人为的初步审核即可扩充到词典库中去。

问题

1、为什么说‘变化较小则能够保证模型的稳定性’呢?
模型不需要处理单维度、大跨度的数据,而变成处理多维度、小跨度的数据,相当于风险分散,多方决策。

2、我没做过SVM之类的模型,原因是:将句子理解为词的序列,并且用词向量表示词,那么句子就变成了一个矩阵。而目前能够比较好地接收矩阵输入的模型,我所知只有RNN和CNN(LSTM属于RNN的一种)。
确实看过一些论文是用SVM做的,它们通过某些特殊的方法构造了一维的句向量(而不是句矩阵),比如词向量加权求和,或者one hot的方式,等等。也就是说,构造特征是他们自己用其它方法来做的。而深度学习的好处是它能够自己构造特征。
也可以这样看吧,其实神经网络的最后一层相当于一个逻辑回归而已(神经网络就是多个逻辑回归的组合),前面的很多层,本质上都是在构造特征。也有人是把最后一层换成SVM的。
结论:我没做过SVM,而从前人的论文结果来看,SVM的效果并不比得上LSTM。论文的一个严重弊端是,我不知道他们做模型的数据是什么,我也没法重复他们的实验,因此,也不好直接拿本文的结果跟论文结果比较。

3、我是这样子的:先用x,y训练,然后用xt,yt测试,测试发现可以了,然后就用全部数据xa,ya训练,然后将模型用于生产。这个代码是最后一步~
所谓代码仅供参考,大家根据自己需求调整嘛。
先用x,y训练,然后用xt,yt测试,这部分是用于保证模型的精度,并且确认这样的模型结构不会有过拟合现象。然后用全部数据训练,是因为确认这样的模型结构还不错之后,就用全部数据训练,因为一般来说数据越多,得出来的模型性能越好。

在这里插入图片描述
横坐标是阈值,纵坐标是真正率或者真负率,阈值分析处理,默认是0.5,实际情况自行分析

虽然从绝对值看,只是从0.99下降到了0.97,变化不大,但是其变化率是非常大的。正常来说都是平稳变化的,陡变意味着肯定出现了什么异常情况,而显然这个异常的原因我们很难发现。换句话说,这里存在一个不稳定的区域,这个区域内的预测结果事实上是不可信的,因此,保险起见,我们扔掉这个区间。只有结果大于0.394的,我们才认为是正,小于0.391的,我们才认为是负,是0.391到0.394之间的,我们待定。实验表明这个做法有助于提高模型的应用准确率。

在这里插入图片描述
很多词语的意思是各个方向发散开的,而不是单纯的一个方向,所以用多维度的词向量表示是合理的。

如果您需要引用本文,请参考:

苏剑林. (Aug. 04, 2015). 《文本情感分类(二):深度学习模型 》[Blog post]. Retrieved from https://kexue.fm/archives/3414

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值