老板喊看看能不能做个分类词库的东西,以后我们分类、聚类就根据这个库来做了。所谓分类词库,我是这样理解的:每个类别都有N个词,当需聚类文本分词之后,统计其词的分部情况,看看词落在哪个类比较多,从而组成特征向量用于聚类。
查了些资料,发现他的思路已经被N多人做过,而且过程比较复杂:对文本分词、去停用词、特征选择、生成向量空间、聚类算法……总而言之,是采用词做为最小的义原,这样做的弊端是步骤太多,如何有效的特征提取呢?最经典的莫过于TF/IDF模型针,求IDF需要(或近似的)出现的总词频。组成向量空间时需要语义相互独立,否则准确率又会下降,又需要使用知网等语义词典来做。最后才是对向量的相似度计算。这种方法在建模过程中做了大量的工作,最后的聚类倒是很简单的弄完了。问题的关键也是建模,如果建模过程中出现了偏差,结果就会差距很大,即使中间加入反馈环节,
电子科大有个家伙使用短句来聚类的,提出后缀树模型。开始还以为他就用后缀树形成文档的树形结构,从而聚/分类等。就想着为嘛不用图呢?今天仔细看了下,果然是用了“文档索引图”。具体细节还要再看。最近再看数据结构,知道了STL是基于RB-Tree的,不错不错。可惜我现在只对二叉树了解点,有没有好用的多叉树可以存放文档的句子之类的呢?这几天要好好查查!