经过tfidf之后发现效果并不好,查看训练集发现准确率只有65.
考虑原因一是训练的不好,但调参换算法后效果没有改善
可能二是数据的处理不够,过于粗糙。
开始尝试构建情感词典
通过情感词典评价分词的正负面评分
加权统计每句话的评分。
考虑通过正向和负面评分进行划分评论的好坏,进行训练评价。
但 很容易出现问题。 对词性的标注和对词和词性的判断评分都有问题
齐次 尝试了知网的英文情感词典和其他词典,反而是中文的偏多一些,效果不好,反而是用NLTK库的情感词典评分好用。不愧是NLTK专门用于英文分词。