聚类算法论文研读 record

本文介绍了一种基于词向量的增量聚类算法——single-pass算法,该算法适用于大规模文本数据处理且无需预设话题簇数量。此外,还详细解释了空间金字塔池化(SPP)的概念及应用,SPP能够有效解决深度卷积神经网络中输入图像尺寸不一的问题。
摘要由CSDN通过智能技术生成

6# 基于词向量和增量聚类的短文本聚类算法

single-pass算法

增量式聚类算法,不需要设置话题簇num的超参,适用于大量文本数据的聚类过程。

原理:第一个文本输入作为第一个话题簇,后续依次输入文本向量,计算相似程度,选择最大相似度的话题簇作为话题归属,如若没有则创建新的话题簇。

空间金字塔池化(SPP)

主要解决deep cnn对于输入图片数据固定大小的问题。避免了不用大小的输入图片缩放而造成信息扭曲丢失,对从conv层得到的feature maps从不同的角度进行特征抽取,聚合得到长度固定的特征向量,保留了更多信息增加了数据的精度。

SPP将feature map按约定比例划分为不同部分,对划分结果抽取对应的数据特征块,pool后得到不同特征的向量集合。对于同一组feature map出来的向量用固定方式聚合。得到固定长度的feature vector。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>