Delta TFIDF
论文中提出了一种在文本分类之前给单词加权的计算方法,并使用SVM对三个数据集进行情感分析。
方法
在词袋模型中,每一个单词或者n-gram字都与一个值相关联。这些值通常都是文档中的数字。有时这些值会根据其对应单词在文档中的统计特征来进一步加权。相反,我们通过这些词在不同语料库中的出现情况来衡量它的值。
本方法通过计算某单词在正负语料库的TFIDF得分差异来为文档分配特征值。
给定:
- C t , d C_{t,d} Ct,d是单词 t t t在文档 d d d中出现的次数。
- P t P_t Pt是正训练语料中包含单词 t t t的文档数量。
- ∣ P ∣ |P| ∣P∣是正训练语料总数。
- N t N_t Nt是负训练语料中包含单词 t t t的文档数量。
- ∣ N ∣ |N| ∣