wuhu木木大王-CSDN博客

原创 MOSim：R 中的多组学模拟2018

随着新的综合方法被开发来分析多组学实验，需要验证策略来进行基准测试。模拟数据等计算机方法很受欢迎，因为它们快速且便宜。然而，很少有工具可用于创建合成多组学数据集。Results MOSim是一个新的 R 包，用于轻松模拟多组学实验，其中包括基因表达数据、其他调控组学以及它们之间的调控关系。MOSim支持不同的实验设计，包括时间序列数据。

2023-12-11 20:10:23 130 1

原创 Autoencoding beyond pixels using a learned similarity metric使用学习到的相似性度量进行超越像素的自编码2016

本文提出了一种自动编码器，它利用学习到的表示来更好地度量数据空间中的相似性。通过将变分自编码器( Variational Autoencoder，VAE )与生成对抗网络( Generative Adversarial Network，GAN )相结合，可以利用GAN判别器中学习到的特征表示作为VAE重建目标的基础。因此，将元素级错误替换为特征级错误，以更好地捕捉数据分布，同时提供对翻译等的不变性。

2023-11-22 22:26:59 156 1

原创 Large-Scale Clustering With Structured Optimal Bipartite Graph结构化最优二部图的大规模聚类

数据规模的普遍提高导致了承担大规模数据聚类任务的必要性。为了做到这一点，二部图理论经常被用于设计一个可扩展的算法，它描述了样本与少数锚点之间的关系，而不是绑定成对样本。然而，二部图和现有的谱嵌入方法忽略了显式的簇结构学习。他们必须通过使用类似K - Means的后处理来获得聚类标签。不仅如此，现有的基于锚点的方法通常使用K - Means的质心或少量的随机样本来获取锚点，这两种方法都是省时但性能不稳定的。在本文中，我们研究了大规模图聚类中的可扩展性、稳定性和集成性。

2023-11-17 18:00:00 354

原创变分推断（Variational Inference）笔记

根据贝叶斯公式，有：p(z∣x)=p(x,z)p(x)=p(x,z)∫p(x,z)dzp(z|x)=\frac{p(x,z)}{p(x)}=\frac{p(x,z)}{\int p(x,z)dz}p(z∣x)=p(x)p(x,z)=∫p(x,z)dzp(x,z)但是在实际应用中，可能由于积分没有闭式解，或者是指数级的计算复杂度_变分推断。变分推断（Variational Inference）解析-CSDN博客。资源来自网络，歉侵删。

2023-09-26 17:43:48 81

原创基于机器学习的原发性乳腺淋巴瘤流行病学和预后指数预测模型:基于人群的研究

原发性乳腺淋巴瘤(PBL)是一种罕见的疾病，其流行病学特征、治疗原则和影响患者预后的因素仍存在争议。本研究旨在探讨PBL的流行病学，并建立一个更好的基于机器学习的模型来预测原发性乳腺淋巴瘤患者的预后。从1975年至2019年的监测、流行病学和最终结果数据库中提取PBL的年发病率，使用Joinpoint软件(版本4.9;国家癌症研究所)。我们从监测、流行病学和最终结果数据库中收集了1251例原发性乳腺淋巴瘤女性患者的数据进行生存分析。

2023-08-13 15:55:25 202 1

原创多视图聚类的共享生成潜在表示学习(2020)

多视图数据聚类一直是计算机视觉领域的一个基础性研究课题。结果表明，综合所有视图的信息比单独使用一个视图可以获得更好的精度。然而，现有的方法往往存在处理大规模数据集和重构样本性能差的问题。本文提出了一种新的多视图聚类方法，该方法通过学习服从混合高斯分布的共享生成潜在表示来实现。动机是基于这样一个事实，即尽管不同视图之间存在差异，但多视图数据共享一个共同的潜在嵌入。具体而言，得益于深度生成学习的成功，该模型不仅可以从视图中提取非线性特征，而且具有捕获所有视图之间相关性的强大能力。

2023-07-05 21:43:52 553

原创多组学和多视图聚类算法:综述和癌症基准

最近的高通量实验方法已被用于收集大型生物医学组学数据集。单组学数据集的聚类已被证明对生物和医学研究是无价的。成本的降低和其他高通量方法的发展现在使多基因组数据的测量成为可能。聚类多组数据有可能揭示进一步的系统级见解，但会带来计算和生物学方面的挑战。在这里，我们回顾了多组学聚类的算法，并讨论了应用这些算法的关键问题。我们的综述涵盖了专门为基因组数据开发的方法，以及机器学习社区为多种数据类型的联合聚类开发的通用多视图方法。

2023-07-05 17:08:27 1964 2

原创透明细胞肾细胞癌的发生及致死性机制（2021）

在解剖定义ccRCC起始和进展的分子特征方面取得了稳步进展。最近发表的TRACERx Renal论文和研究描述了肿瘤基因组学和微环境重塑之间的相互作用，为该领域提供了重要的新信息。本文综述了ccRCC中常见的基因组和染色体拷贝数异常，包括3p丢失，并提供了一个机制框架，将这些特征组织为启动事件、进展驱动因素和致死性因素。本文描述了研究人员开发具有这些基因组特征的ccRCC动物模型所面临的挑战。

2023-06-13 17:33:03 726 1

原创基于多模态深度学习方法的多平台癌症数据综合分析（2015）

癌症亚型的鉴定在揭示疾病发病机制和推进个性化治疗方面发挥着重要作用。最近高通量测序技术的发展使得同一组肿瘤样本的多平台基因组数据(如基因表达、miRNA表达和DNA甲基化)的快速收集成为可能。尽管已经开发了许多综合聚类方法来分析癌症数据，但其中很少有专门设计用于利用每种输入模式的深层固有统计特性和多平台输入数据之间复杂的跨模态相关性。在本文中，我们提出了一种新的机器学习模型，称为多模态深度信念网络(DBN)，用于从多平台观察数据中聚类癌症患者。

2023-06-02 09:48:18 309

原创正则化无监督多核学习集成不同数据类型及其在癌症亚型发现中的应用（2015）

我们应用并扩展了当前的多核学习降维方法。一方面，我们添加了正则化项以避免优化过程中的过拟合，另一方面，我们表明甚至可以为每个数据类型使用几个内核。

2023-06-01 10:50:15 192

原创 WGCNA分析，单细胞组学（TCGA）R语言实践全流程

WGCNA利用数千或近万个变化最大的基因或全部基因的信息识别感兴趣的基因集，并与表型进行显著性关联分析。R语言实践全流程。

2023-05-12 17:02:56 2223 1

2301_76755787的博客