今天介绍分类技术最后的一点内容,single-pass的增量聚类,这里我们以前边分类技术中的语料“运动”类别作为聚类的语料,原因是这份语料不是很纯,抽取出的关键词和“农业”类很相关同时还跟“教育”类相关,我们在这里使用增量聚类先把“运动”类下的文本做聚类,然后对每一个簇抽取出关键词(之后的文章介绍对这些簇抽取关键词),人工通过关键词来抽取出合适的语料,之后再用特征选择方法验证一下(之后的文章介绍)。下边首先做一些有关增量聚类的介绍。
话题发现与跟踪(topic detection and tracking, TDT)的评测中常用的聚类方法是single-pass聚类,其原理简单、计算速度快,然而该算法的缺点也很明显:受输入顺序的影响,且聚类结果精度差。single-pass聚类的基本流程如(1) 接收一篇互联网文本向量d;
(2) d逐一与已有的话题中各报道进行相似度计算,并取最大者作为与该话题的相似度(single-link策略);
(3) 在所有话题间选出与d相似度最大的一个,以及此时的相似度值;
(4) 如果相似度大于阈值TC,d所对应的互联网文本被分配给这个话题模型文本类,跳至(6);
(5) 如果相似度值小于阈值TC,d所对应的文本不属于已有的话题,创建新话题,同时把这篇文本归属创建的新话题模型文本类;
(6) 本次聚类结束,等待文本到来。
阈值在[0,1]之间,阈值设置的越高,得到的簇粒度越小(簇内文本数量少),簇的个数越多;相反,阈值设置的越低,得到的簇粒度越大(簇内文本数量多),簇的个数越少。
有两篇