使用Fasttext与卷积进行情感分析

FastText情感分析

在不使用RNN进行句子的情感分析的条件下,最简单的方法就是将每个句子中划分的token的vector进行平均,然后送入线性分类层中分类即可。但这种操作值考虑了token的含义,并没有关注其语序,有较大的误差。
所以FastText计算了输入句子的n-gram,并将n-gram作为一种附加特征来获取局部词序特征信息添加至标记化列表的末尾。n-gram的基本思想是,将文本里面的内容按照字节进行大小为n的滑动窗口操作,形成了长度是n的字节片段序列。

def generate_bigrams(x):
    n_grams = set(zip(*[x[i:] for i in range(2)]))
    for n_gram in n_grams:
        x.append(' '.join(n_gram))
    return x

generate_bigrams(['This', 'film', 'is', 'terrible'])
##['This', 'film', 'is', 'terrible', 'film is', 'This film', 'is terrible']

卷积情感分析

在FastText的启示下,我们可以不用预先计算句子的n-gram,而是使用不同卷积核的方式来得到不同滑动窗口的效果,例如下图,embedding_dim=5,filter_size=(2,5),这样可以起到n=2的效果,再经过一次池化层就可以将一个句子变成一个值来表示。然后可以使用不同的filter_size,将结果concat在一起,再经过一层线性分类层,也可以达到分类的效果。
在这里插入图片描述

二分类与多分类

分类问题通常分为二分类与多分类两种,在建模的过程中主要区别就是最后的分类层与激活函数,二分类使用sigmoid,多分类使用softmax,都是用交叉熵的损失函数,进行更新参数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值