Improving gender classification of blog authors
论文提出了两种技术改善了微博作者性别分类的准确率:1、通过对训练数据使用序列模式识别算法得到一个新的特征(variable length POS patterns);2、特征集成(feature selection criteria and approach);
文中指出了先前一些能辨别Post是男或女发表的特征,如F-measure(它主要基于文本中词性的频率;F值越大,表明句子主要由名字、形容词、介词、冠词构成;F值越小,表明句子主要由代词、动词、副词、感叹词构成);Stylistic Features(主要反映人们书写风格);Gender preferential Features(用词方法);Factor analysis and word classes(对词聚类,每个Factor里有与之对应的词)