基于cnn的短文本分类_基于CNN和BiLSTM的文档二分类模型

自动文档分类是一个基础研究主题,可以广泛地应用在垃圾邮件分类、网页分类、自动新闻情感识别等领域。基于机器学习的方法,需要进行的工作有特征选择、分类器训练。

实验1,利用机器学习的方法进行分类器训练。获取携程网站关于酒店情感的已标注评论,清洗后得到2560行正向评论、3533行负向评论。按组进行5-fold拆分,比较和评价以下几种特征选择方法。

文本特征提取按照字符Unigram、Bigram、Trigram以及词共四种Term生成方法,向量生成有频率和TfIdf两种生成向量的方法,利用L2进行正则化[1]。根据上述不同特征处理方法,进行了不同的特征选则,其评价如下表1:

2801cc7e1f222de029f7e7ce4ce8a7df.png

对各自变量计算相关性矩阵,可知,如图2:

a85a8b91612d1c04a1b33f428f12f574.png
图2 自变量计算相关性矩阵

实验2,利用CNN和BiLSTM[2-3]构建情感分类模型,其各特征的相关性矩阵如图3:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值