词频统计方法及其差异 不同的方法逻辑不同 Collections.Counter、自编for循环计数似乎统计的逻辑不同,这里涉及到文本的预处理问题。否则大小写、包含关系的处理是不一样的。 Counter区分大小写,比如在删除停用词之前,counter对the和The是分开统计的; 而用for循环自编统计,似乎对二者以及包含the的都会统计进去。 因此,在进行词频统计之前,先进行停用词及词的标准化处理就显得相当重要。