6# 基于词向量和增量聚类的短文本聚类算法
single-pass算法
增量式聚类算法,不需要设置话题簇num的超参,适用于大量文本数据的聚类过程。
原理:第一个文本输入作为第一个话题簇,后续依次输入文本向量,计算相似程度,选择最大相似度的话题簇作为话题归属,如若没有则创建新的话题簇。
空间金字塔池化(SPP)
主要解决deep cnn对于输入图片数据固定大小的问题。避免了不用大小的输入图片缩放而造成信息扭曲丢失,对从conv层得到的feature maps从不同的角度进行特征抽取,聚合得到长度固定的特征向量,保留了更多信息增加了数据的精度。
SPP将feature map按约定比例划分为不同部分,对划分结果抽取对应的数据特征块,pool后得到不同特征的向量集合。对于同一组feature map出来的向量用固定方式聚合。得到固定长度的feature vector。