概念:一种最简单却非常高效的模型就是只统计数据集中每个单词的出现次数
词袋模型主要分为以下三种:
1.第一种是使用词语实际出现次数作为词频。缺点是当 文档长度差异明显时,词频差距会非常大。
2.第二种是使用归一化后的词频,每篇文档中所有词语 的词频之和为1。这种做法优势明显,它规避了文档长度对词频的影响。
3.第三种,直接使用二值特征来表示——单词在文档中出现值为1,不出现值为0。
---整理自《数据挖掘与实践》
概念:一种最简单却非常高效的模型就是只统计数据集中每个单词的出现次数
词袋模型主要分为以下三种:
1.第一种是使用词语实际出现次数作为词频。缺点是当 文档长度差异明显时,词频差距会非常大。
2.第二种是使用归一化后的词频,每篇文档中所有词语 的词频之和为1。这种做法优势明显,它规避了文档长度对词频的影响。
3.第三种,直接使用二值特征来表示——单词在文档中出现值为1,不出现值为0。
---整理自《数据挖掘与实践》