自动文档分类是一个基础研究主题,可以广泛地应用在垃圾邮件分类、网页分类、自动新闻情感识别等领域。基于机器学习的方法,需要进行的工作有特征选择、分类器训练。
实验1,利用机器学习的方法进行分类器训练。获取携程网站关于酒店情感的已标注评论,清洗后得到2560行正向评论、3533行负向评论。按组进行5-fold拆分,比较和评价以下几种特征选择方法。
文本特征提取按照字符Unigram、Bigram、Trigram以及词共四种Term生成方法,向量生成有频率和TfIdf两种生成向量的方法,利用L2进行正则化[1]。根据上述不同特征处理方法,进行了不同的特征选则,其评价如下表1:
对各自变量计算相关性矩阵,可知,如图2:
实验2,利用CNN和BiLSTM[2-3]构建情感分类模型,其各特征的相关性矩阵如图3: