《A Self-Training Approach for Short Text Clustering》论文笔记

这篇博客介绍了针对短文本聚类的自我训练方法,通过SIF Embedding解决稀疏性问题,结合autoencoder进行降维,并使用聚类作为辅助目标进行联合微调。实验表明,这种方法能有效提升聚类效果,使得聚类任务与特征提取更加融合。
摘要由CSDN通过智能技术生成

A Self-Training Approach for Short Text Clustering


这是一篇关于短文本聚类的文章。
“因为随着社交媒体的广泛使用,短文本已经成为web上流行的文本形态。然而与长文本不同,使用词袋模型和TF-IDF表示的短文本存在着稀疏的问题。”

短文本的稀疏问题

假设有短文本数据集X={x1,x2…xn}。
对于xiX,假设xi中的词汇数为ni,那么数据集X的词汇数量V为 V = ∑ i = 1 n n i V = \sum^{n}_{i=1}n_{i} V=i=1nn

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值