自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Effective Neural Topic Modeling with Embedding Clustering Regularization

问题:topic models 会面临主题崩塌(主题在语义上崩塌在一块)的问题,导致主题重复度高,主题发现不充分,影响模型的可解释性。模型:提出了一个ECRTM,Embedding Clustering Regularization Topic Model。在保留重构误差的基础上,提出了ECR,Embedding Clustering Regularization,让每个topic作为聚类的簇,缓解了主题崩塌。

2024-08-28 06:01:06 933

原创 AASAE:通过数据增强替换KL

通过数据增强替换KL正则化。

2024-06-25 22:54:55 547

原创 《Self-supervised clustering with assistance from off-the-shelf classifier》学习

大多数聚类分布高度依赖设定的非线性映射得到的中间目标分布聚类结果很容易收到每个簇中错误分配的样本的影响,导致错误。现有的深度聚类方法无法区分这些样本。提出了一个 “self-supervised clustering framework, which boosts the clustering performance byin anmanner”用到了模糊理论来给训练时期的每个样本属于簇的概率评分。根据隶属度选择方法选择最可靠的样本,并进行数据增强。增强后的数据通过自监督。

2024-06-05 16:39:33 616

原创 《A Decoder-Free Variational Deep Embedding for Unsupervised Clustering》学习

对于聚类任务,模型训练后decoder是无用的,encoder-decoder的结构限制了encoder的深度,降低了模型的学习能力。

2024-04-02 09:16:48 1561 1

原创 《Variational Graph Auto-Encoders》学习

现看看VGAE运行原理,再对比和GAE的区别,思考对于下一个模型的启发。

2024-03-25 14:10:56 246 1

原创 《Deep Fusion Clustering Network》启发

将AE和图神经网络结合起来,利用结构信息提高性能。

2024-03-22 20:51:18 1127 1

原创 《Contrastive deep embedded clustering》学习

利用深度自动编码器来学习潜在的具有区分性嵌入式聚类结构,并通过构建正样本和负样本来克服缺少标签信息的问题。

2023-10-11 21:47:28 85

原创 《Supporting Clustering with Contrastive Learning》学习

论文名:Supporting Clustering with Contrastive Learning。Loss:对比loss+聚类loss。论文来源:NAACL 2021。

2023-10-11 16:50:56 86

原创 VAE代码(失败记录)

跑了一天,出来的值一直很怪。

2023-09-14 15:27:04 165 1

原创 VAE生成模型学习

输出为码m(均值)+方差σ(取exp为标准差,为正数),构成一个分布,从标准差中采样一个值(e,相当于噪声),生成一个新的带噪声的码ccmexpσ∗eloss约束:除了重构损失外,还需要满足expσi−1σi图像如下方绿色曲线,使其最小化,即σi趋近于0。

2023-09-07 19:00:19 119 1

原创 文本向量化

词语序列中出现的词语其数值为词语在所在文本中的。

2023-09-06 08:24:48 40 1

原创 LDA生成模型学习

文档m产生主题θ的概率,主题θ产生单词w的概率都不再是某两个确定的值,而是。,是从dirichlet先验中“随机”抽取出主题分布。除了生成的单词W,其他都是隐变量或参数。

2023-09-05 21:30:21 98 1

原创 贝叶斯定理(更新中)

新证据不能直接凭空的决定你的看法,而是应该更新你的先验看法”

2023-08-29 21:46:43 81 1

原创 《基于增强语义的深度文本聚类方法研究》学习(更新中)

对于文本聚类任务,可以将每个词作为一个特征,并根据训练数据集中不同词出现的频次或者权重来估计各个类别下某个词出现的条件概率。在构建过程中, 贝叶斯网络使用有向无环图(DAG)表示随机变量之间依赖关系, 并使用参数化形式定义了联合分布. 在具体实践时, 变量节点通常表示文本特征, 而类别节点则表示聚类结果。贝叶斯模型是一种基于贝叶斯定理的概率统计模型,用于描述和推断随机事件之间的关系。通过计算后验分布,我们可以根据已有信息来更新和调整我们对未知参数或变量的信念,并进行推断、预测等任务。较大而无法清晰分离。

2023-08-29 21:45:48 166 1

原创 SDCN--代码分析

SDCN通过集成预训练好的ae模型和多层GCN,实现了一个融合节点自身特征和结构特征的模型结构。同时引入自监督信号作为辅助训练。这形成了一个既考虑节点自身,也建模节点关系的图神经网络。前向传播:通过AE和GCN提取节点特征。计算预测类别和自监督信号。输出:重构特征、自监督信号、预测类别、编码表示。#AEn_z=n_z)# GCN# Degreeself.v = v定义了5层GCN。通过第一层GCN学习初始特征。接下来每层GCN的输入是前层GCN特征h和AE特征的融合。

2023-08-16 20:13:08 292 1

原创 SDCN--算法流程学习

SDCN框架主要由GCN和AE组成。GCN(图卷积网络)用在文本数据上的好处:捕捉语义关系:文本数据通常具有复杂的语义关系,例如词与词之间的、句子之间的等。GCN可以通过在图结构中传播信息来学习单词或句子之间的,从而更好地捕捉到这些语义关系。处理长距离依赖:传统基于序列模型(如循环神经网络)处理文本时可能会面临问题,即较远位置上出现的单词对当前位置产生影响。而GCN可以通过多层卷积操作,在不同层级上进行信息传递和聚合,有效地解决了这个问题。

2023-08-12 15:35:20 3803

原创 SDCN--bbc数据集预处理

bbc文件夹下有五个文件夹,对应5个聚类,分别为tech,sport,politics,entertainment,business。

2023-08-11 21:37:07 331 1

原创 SDCN--在bbc数据集下的结果

Z(硬聚类结果): 通过模型预测得到的硬聚类, 将Q转换为hard cluster assignment。P(优化目标即理想的软聚类分布): 目标分布,也就是理想的soft cluster assignment。Q(软聚类结果): 通过模型预测得到的软聚类,即数据点属于每个cluster的概率。它是tmp_q变量,通过模型的自编码器和GCN模块预测得到。可以从图中看出,最开始的指标很低,在200多epoch后达到最高值,loss呈现下降(但不知道为什么loss那么低)

2023-08-11 21:23:11 207 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除