- 博客(341)
- 资源 (1)
- 收藏
- 关注
原创 DNA 13. SCI 文章肿瘤突变负荷计算方法(TMB)
基因组生信分析教程DNA 1. Germline Mutation Vs. Somatic Mutation 傻傻分不清楚DNA 2. SCI 文章中基因组变异分析神器之 maftoolsDNA 3. SCI 文章中基因组变异分析神器之 maftoolsDNA 4. SCI 文章中基因组的突变信号(maftools)DNA 5. 基因组变异文件VCF格式详解DNA 6. 基因组变异之绘制精美瀑布图...
2023-03-06 11:37:36 1781
原创 FigDraw 11. SCI 文章绘图之小提琴图 (ViolinPlot)
FigDraw 11. SCI 文章绘图之小提琴图 (ViolinPlot)样式最全面的小提琴图 (ViolinPlot),全网仅桓峰基因提供此教程!
2022-06-04 06:39:14 10049 1
原创 ML 46. 机器学习之利用SHAP解释模型特征变量的重要性
简 介在许多应用中,理解一个模型为什么会做出某种预测是至关重要的。然而,对于大型现代数据集,最好的准确性通常是通过复杂的模型来实现的,即使专家也很难解释,比如集成或深度学习模型。这造成了准确性和可解释性之间的紧张关系。作为回应,最近提出了各种方法来帮助用户解释复杂模型的预测。在这里,我们提出了一个统一的框架来解释预测,即SHAP (SHapley Additive exPlanations),它...
2024-10-25 14:56:54 832
原创 IF 14+ 系统性解剖30种癌症的1000个肿瘤的肿瘤-正常单细胞生态系统
这期分享一篇2024年5月发表于 Nat Commun (IF 14+)的文章,作者基于系统解剖肿瘤-正常单细胞生态系统横跨30种癌症类型的1000个肿瘤。该文章使用桓峰基因公众号里面生信分享教程即可实现,有需要类似思路的老师可以联系我们!摘 要肿瘤微环境的复杂性对肿瘤治疗提出了重大挑战。在这里,为了全面研究肿瘤-正常生态系统,我们对来自 1070 个肿瘤和 493 个正常样本的 490 万...
2024-10-17 11:08:59 758
原创 IF 25+ 单细胞测序揭示胆囊癌发病机制中的微环境动力学和免疫调节因子
这期分享一篇2024年8月发表于 Gut (IF 25+) 的文章,作者基于单细胞测序揭示胆囊癌发病机制中的微环境动力学和免疫调节因子。该文章使用桓峰基因公众号里面生信分享教程即可实现,有需要类似思路的老师可以联系我们!摘 要**目的:**了解胆囊癌及胆囊良性疾病的复杂生态系统和分子特征,是开展前瞻性癌症预防和优化治疗干预的关键。**设计:**我们对来自 15 例 GBCs、4 例胆囊炎、...
2024-10-15 10:51:49 587
原创 IF 10+ 泛癌症单细胞转录图谱上癌症相关成纤维细胞的分子分类
这期分享一篇2023年10月发表于 Clin Transl Med (IF 10+) 的文章,泛癌症单细胞转录图谱上癌症相关成纤维细胞的分子分类。该文章使用桓峰基因公众号里面生信分享教程即可实现,有需要类似思路的老师可以联系我们!摘 要背景:肿瘤相关成纤维细胞 (CAFs) 是肿瘤微环境不可或缺的一部分,在癌症进展中起着关键作用,表现出促肿瘤或抗肿瘤的功能。其固有的表型和功能多样性允许将 ...
2024-10-14 10:51:01 840
原创 IF 10+ 11种ML识别和验证危重儿童急性肾损伤可解释预测模型。
这期分享一篇2024年2月发表于 eClinicalMedicine (IF 10+) 的文章,基于11种机器学习方法识别和验证危重儿童急性肾损伤可解释预测模型。摘 要背景:急性肾损伤 (Acute kidney injury, AKI) 是危重儿童常见的严重器官功能障碍。AKI 的早期识别和预测具有重要意义。然而,目前的 AKI 标准不够敏感和特异性,而且 AKI 的异质性限制了 AKI ...
2024-10-12 09:35:06 716
原创 IF 14+ 单细胞测序揭示类风湿关节炎滑膜淋巴细胞亚群与功能状态的克隆关系
这期分享一篇2024年5月发表于 Nat Commun (IF 14+) 的文章,作者基于单细胞测序研究类风湿关节炎滑膜淋巴细胞亚群与功能状态的克隆关系。该文章使用桓峰基因公众号里面生信分享教程即可实现,有需要类似思路的老师可以联系我们!摘 要类风湿性关节炎 (RA) 是一种涉及抗原特异性 T 细胞和 B 细胞的自身免疫性疾病。在这里,我们对 12 名血清阳性 RA 患者的成对滑膜组织和血液...
2024-10-09 09:19:48 1035
原创 IF: 27+多组学分析显示TRAP1/CAMSAP3的细胞在早期子宫内膜癌中的预后
这期分享一篇2024年6月发表于 Molecular cancer (IF 27+)的文章,作者基于多组学分析显示,具有新型致癌簇TRAP1low/CAMSAP3low的细胞在早期子宫内膜癌中表现出更强的侵袭性行为和更差的预后。该文章使用桓峰基因公众号里面生信分享教程即可实现,有需要类似思路的老师可以联系我们!摘 要早期子宫内膜癌(EC)的临床异质性值得进一步研究,以确定高质量的预后标志物及其...
2024-10-01 17:28:01 886
原创 RNA 46. 基于转录组识别可变剪切和异构体开关(IsoformSwitchAnalyzeR)①
简 介可变剪接 (Alternative splicing) 是参与健康和疾病的重要机制。最近的工作强调了研究剪接模式的全基因组变化和随后的功能后果的重要性。目前的计算方法只支持这种基于基因的分析。因此,扩展了 IsoformSwitchAnalyzeR 库,以分析特定类型的选择性剪接的全基因组变化,并预测由此产生的异构体开关的功能后果。作为一个案例研究,分析了来自癌症基因组图谱的 RNA-s...
2024-09-11 14:36:20 570
原创 RNA 45. 基于转录组的分段筛选DEG/DET/DTU(stageR)
简 介具有复杂设计和转录分辨率分析的 RNA 测序研究涉及每个基因的多个假设;然而,传统的方法无法在基因水平上控制错误发现率 (FDR) 。提出 stageR 一种两阶段测试范式,利用聚合基因水平测试的增强能力,并允许对重要基因进行事后评估。这种方法提供了基因水平的 FDR 控制,并提高了测试相互作用效应的能力。在转录水平分析中,提供了一个框架,执行强大的基因水平测试,同时维持转录水平分辨率的...
2024-08-19 17:40:07 992
原创 RNA 44. 基于单细胞/bulk转录组的转录本差异分析(satuRn)
简 介可变剪接从单个基因中产生多个功能转录物。已知剪接失调与疾病有关,并且是癌症的标志。现有的差分转录使用 (DTU) 分析工具要么缺乏性能,要么不能解释复杂的实验设计,要么不能扩展到大规模的单细胞转录组测序 (scRNA-seq) 数据集。引入了 satuRn,这是一个快速灵活的准二项广义线性建模框架,它与来自大量 RNA-seq 领域的最佳 DTU 方法相当,同时提供了良好的 FDR 控制...
2024-08-18 21:46:52 788
原创 RNA 43. 基于转录组的外显子差异分析(DEXSeq)
简 介RNA-seq 是研究选择性剪接和其他形式的选择性异构体表达的有力工具。了解这些过程的调节需要在不同条件、细胞类型或组织之间的比较中对差异异构体丰度进行敏感和特异性的检测。提出 DEXSeq 一种在 RNA-seq 数据中测试差异外显子使用的统计方法。DEXSeq 使用广义线性模型,并通过考虑生物变异提供可靠的错误发现控制。DEXSeq 检测高灵敏度基因,在许多情况下外显子,受差异外显子...
2024-08-16 21:31:49 789
原创 SEQ 10. 真核生物蛋白质的亚细胞定位(DeepLoc)
简 介蛋白质亚细胞定位的预测对蛋白质组学研究具有重要意义。在这里,我们建议对流行的工具 DeepLoc 进行更新,以进行多定位预测并改进性能和可解释性。为了进行训练和验证,我们整理了具有严格同源性分区的真核和人类多位置蛋白质数据集,并丰富了从文献中汇编的排序信号信息。我们通过使用预训练的蛋白质语言模型在 DeepLoc 2.0 中实现了最先进的性能。它的另一个优点是它使用序列输入而不是依赖较慢的...
2024-08-14 18:04:42 1119
原创 SEQ 9. α-螺旋和 β-桶跨膜蛋白的预测(DeepTMHMM)
简 介跨膜蛋白跨越脂质双分子层,分为两种主要结构类,即螺旋状和桶状。我们介绍了 DeepTMHMM,这是一种基于深度学习蛋白质语言模型的算法,可以以前所未有的精度检测和预测 α-螺旋和 β-桶跨膜蛋白的拓扑。DeepTMHMM 可扩展到蛋白质组,并涵盖生命的所有领域,这使其成为宏基因组学分析的理想选择。在过去的几年中,使用深度学习方法进行蛋白质结构预测已经取得了一些进展。在这个项目中,我们研究...
2024-08-09 14:05:18 532
原创 SEQ 8. 蛋白序列结构的无序性预测(IUPred2A)
简 介蛋白质的结构状态包括有序的球状结构域以及本质上无序的蛋白质区域,这些区域作为高度灵活的构象集合体孤立存在。已经开发了各种计算工具来区分基于氨基酸序列的有序和无序片段。然而,IDR 的性质也可以取决于各种条件,包括与球状蛋白伴侣的结合或环境因素,如氧化还原电位。这些案例为无序段的计算表征提供了进一步的挑战。因此,提出了 IUPred2A,这是一个组合的web界面,允许生成基于 IUPred...
2024-08-08 16:18:09 944
原创 SEQ 7. 蛋白序列的结构特征预测(NetSurfP3)
简 介机器学习和自然语言处理的最新进展使我们能够深刻地提高准确预测蛋白质结构及其功能的能力。虽然这些改进对生物学和生物技术领域产生了重大影响,但这些方法在计算能力和运行时间方面有很高的要求,阻碍了它们对大型数据集的适用性。在这里,我们介绍NetSurfP-3.0,预测溶剂可及性的工具,二级结构,结构无序和主干二面角的氨基酸序列的每个残基。这次NetSurfP更新利用了预训练蛋白质语言模型的最新...
2024-08-07 13:18:49 1111
原创 SEQ 6. 蛋白序列的信号肽预测(SignalP)
简 介信号肽(SPs)是一种短的氨基酸序列,在所有生物体中控制蛋白质分泌和易位。SPs可以从序列数据中预测,但现有的算法无法检测到所有已知类型的SPs。我们介绍SignalP6.0,这是一个机器学习模型,可以检测所有五种SP类型,并适用于宏基因组数据。SignalP 在线分析工作流程:a、五种SP类型的区域结构。b、蛋白质LM训练程序。c、预测训练前蛋白质表示的t-分布随机邻居嵌入(t-S...
2024-08-06 15:16:07 1985
原创 SEQ 5. 转录本蛋白编码能力预测(CPC2)
简 介随着新一代测序技术的进步,在大量生物体中发现了许多新的转录本。为了快速、准确地评估RNA转录物的编码能力,将编码势计算器CPC1升级为CPC2。CPC2的运行速度比CPC1快 ~ 1000倍,与CPC1相比具有更高的准确性,特别是对于长的非编码转录本。此外,CPC2的模型是种中性的,这使得它可以用于不断生长的非模式生物转录组。可以在线分析,也可以下载独立包进行本地安装分析。CPC...
2024-08-01 15:48:40 488
原创 SEQ 4. 转录本蛋白编码能力预测软件(CPAT)
简 介深度转录组测序能够检测数千个新的转录本。这一发现大而“隐藏”的转录组重新激活了对能够快速区分编码和非编码 RNA 的方法的需求。在这里提出了一种新的无比对方法,编码潜在评估工具( CPAT) ,可以快速识别来自大量候选转录本的编码和非编码转录本。为此,CPAT 使用了一个 Logistic 回归模型,该模型包含四个序列特征:开放阅读框大小、开放阅读框覆盖率、Fickett TESTC...
2024-07-30 21:23:02 527
原创 SEQ 3. pfam数据库的注释及本地分析 (pfam_scan)
简 介Pfam数据库是一个蛋白质家族的大集合,每个家族都由多个序列比对和隐马尔可夫模型(hmm)表示。蛋白质通常由一个或多个功能区组成,通常称为结构域。不同的结构域组合产生了自然界中发现的各种各样的蛋白质。因此,鉴定发生在蛋白质内部的结构域可以深入了解其的功能。Pfam还生成相关条目的高级分组,称为宗族。宗族是由序列、结构或剖面的相似性联系在一起的Pfam条目的集合。每个条目的数据都是基于U...
2024-07-29 14:56:02 1036
原创 SCS 43. 单细胞数据中细胞群的纯度/异质性计算(ROGUE)
简 介单细胞RNA测序(scRNA-seq)是一种发现和注释细胞类型和状态的通用工具,但细胞亚型的确定和注释往往是主观的和任意的。通常甚至不清楚给定的群集是否均匀。在这里提出了一个基于熵的统计,ROGUE以准确地量化鉴定细胞团的纯度并证明ROGUE指标是广泛适用的,并且能够在广泛的模拟和真实数据集上对聚类纯度进行准确,敏感和稳健的评估。将这一指标应用于成纤维细胞、B细胞和大脑数据,确定了额外...
2024-07-22 15:49:28 1504
原创 IF: 24+ 基于单细胞转录组分析揭示了膀胱癌中组蛋白与耐药之间的关联
这期分享一篇2024年4月发表于 Drug Resistance Updates (IF 24+)的文章,作者基于单细胞转录组分析揭示了膀胱癌中组蛋白与耐药之间的关联。该文章使用桓峰基因公众号里面生信分享教程即可实现,有需要类似思路的老师可以联系我们!摘 要膀胱癌 (BCa) 患者经常对铂类化疗产生耐药性,尤其是顺铂。本研究围绕 BCa 的顺铂耐药机制展开,并强调了乳酸化在驱动这一现象...
2024-07-20 18:08:40 1047
原创 RNA 42. 基于转录组及转录因子库构建转录因子调控网络 (NetAct)
简 介系统生物学的一个主要问题是如何识别控制生物过程决策的核心基因调控回路。一个名为NetAct的计算平台,用于使用转录组学数据和基于文献的转录因子目标数据库构建核心转录因子调控网络。NetAct使用目标表达稳健地推断调控因子的活性,基于转录活性构建网络,并集成数学模型进行验证。我们的计算机基准测试表明,NetAct在推断转录活性和基因网络方面优于现有算法。我们演示了应用NetAct来模...
2024-07-19 13:38:50 1059
原创 SCS 42. 基于单细胞转录组表型数据构建临床预测模型 (Sicssor)
简 介单细胞RNA测序(scRNA-seq)在异质组织中区分细胞类型、状态和谱系。然而,目前的单细胞数据不能直接将细胞簇与特定表型联系起来。在这里,我们提出Scissor方法,从单细胞数据中识别与给定表型相关的细胞亚群。Scissor通过首先量化每个单细胞和每个大样本之间的相似性,整合了表型相关的大样本表达数据和单细胞数据。然后,优化了与样本表型相关矩阵的回归模型,以确定相关的亚群。将Scisso...
2024-07-18 14:43:26 1177
原创 IF: 16+ 6种机器学习算法利用代谢组学预测胃癌的诊断和预后
这期分享一篇2024年2月发表于 Nature Communications (IF 16+)的文章,作者基于6种机器学习算法利用代谢组学预测胃癌的诊断和预后。该文章使用桓峰基因公众号里面生信分享教程即可实现,有需要类似思路的老师可以联系我们!摘 要胃癌(GC)是世界范围内癌症相关死亡率的重要负担,强调迫切需要制定早期发现策略和精确的术后干预措施。然而,鉴别用于早期诊断和患者风险分层的非侵入...
2024-07-06 17:50:58 1116
原创 IF: 8+ 基于10种机器学习揭示了肺腺癌预后和治疗中不同细胞死亡模式
这期分享一篇 2024年1月发表于 npj Precision Oncology (IF 8+)的文章,作者基于机器学习揭示了肺腺癌预后和治疗中不同细胞死亡模式。该文章使用桓峰基因公众号里面生信分享教程即可实现,有需要类似思路的老师可以联系我们!摘要肺癌细胞的生长、转移和耐药性对肺腺癌(LUAD)的治疗提出了重大挑战。然而,目前缺乏能够准确预测患者预后并指导选择靶向治疗的最佳预测模型。程序性细胞死...
2024-07-02 20:46:55 768
原创 IF: 12+ 基于6种机器学习算法整合单细胞和bulk转录组预测前列腺癌的进展
这期分享一篇 2024年1月发表于 Theranostics (IF 12.6)的文章,作者基于单细胞和大量转录组学的综合分析开发了一个强大的神经内分泌细胞内在特征来预测前列腺癌的进展。该文章使用桓峰基因公众号里面生信分享教程即可实现,有需要类似思路的老师可以联系我们!摘 要神经内分泌前列腺癌(NEPC)通常意味着严重的致命性和有限的治疗选择。NEPC细胞的精确鉴定对于研究和临床应用具有至关重...
2024-07-01 21:50:55 2101
原创 IF: 8+ 基于26种机器学习算法的人工智能预测肺腺癌患者预后和免疫治疗反应
这期分享一篇 2024年1月发表于Cell Prolif (IF 8.5)的文章,作者基于26种机器学习算法的人工智能预测肺腺癌患者预后和免疫治疗反应。该文章使用桓峰基因公众号里面生信分享教程即可实现,有需要类似思路的老师可以联系我们!摘 要免疫细胞在影响肺腺癌 (LUAD) 细胞的增殖、进展和转移中起着越来越重要的作用。然而,免疫细胞特异性基因模型的潜力在很大程度上仍然未知。在当前的研究中,...
2024-06-30 11:36:33 947
原创 ML 45. 机器学习之快速实现随机生存森林 (Ranger)
简 介Ranger 软件是一个快速实现高维数据的随机森林。支持集成分类、回归和生存树。用参考实现验证包,并将运行时和内存使用情况与其他实现进行比较。新软件被证明是最好的缩放与特征,样本,树的数量,并尝试分裂的特征。最后,表明 Ranger 是最快和最有效的实现随机森林在全基因组关联研究的规模上分析数据。软件包安装if(!require(ranger)) install.packages("r...
2024-06-29 16:48:02 777
原创 ML 44. 机器学习之梯度提升回归树用于生存数据 (BlackBoost)
简 介梯度提升回归树GBRT(Gradient Boosting Regression Tree)是利用树模型进行回归的算法模型。梯度提升采用连续的方式构造树,每棵树都试图纠正前一棵树的错误。默认情况下,梯度提升回归树中没有随机化,而是用到了强预剪枝。梯度提升树通常使用深度很小的数,这样模型占用内存更少,预测速度也更快。软件包安装if(!require(mboost)) install.p...
2024-06-28 15:18:12 772
原创 MachineLearning 43. 机器学习之梯度增强线性模型用于生存数据 (glmboost)
简 介glmboost (Gradient Boosting with Component-wise Linear Models) 实现了优化一般风险函数的增强,利用组件(惩罚)最小二乘估计作为基础学习器,用于将各种广义线性和广义加性模型拟合到潜在的高维数据。演示了如何使用 glmboost 来拟合不同复杂性的可解释模型。作为一个例子,在整个教程中,使用ovarian数据集。软件包安装glmb...
2024-06-27 13:52:02 1030
原创 MachineLearning 42. 机器学习之Akritas条件非参数生存估计 (akritas)
简 介Akritas生存估计是更常见的Kaplan-Meier估计的条件近邻方法。常见的用法包括IPCW生存模型和度量,不需要假设删失是独立于协变量的。软件包安装survivalmodels包使用reticulate从Python实现模型。为了使用这些模型,必须按照reticulate::py_install安装所需的Python包。Survivalmodels包含一个辅助函数,用于安装所需的...
2024-06-26 13:18:31 853
原创 MachineLearning 41. 机器学习之参数生存回归模型 (survreg)
简 介失效时间数据根据生存结局的发生情况,生存分析的数据资料常常分为终点事件(如死亡)和删失(其他生存结局)两类。生存分析不同类型的数据包括:完全数据(Complete data)删失数据(Censoring data)删失数据通常在其右上角标记"+"号,表示真实的生存时间未知,只知道比观察到的删失时间要长。在生存分析中,发生终点事件记为“1” ,删失记为"0” 。删失的类型包括:(1) 右...
2024-06-25 15:01:33 824
原创 Topic 21. 临床预测模型之Surv 创建生存对象
点击关注,桓峰基因Surv 创建生存对象创建一个生存对象,通常用作模型公式中的响应变量。参数匹配对于这个函数是特殊的,请参阅下面的详细信息。Description创建一个生存对象,通常用作模型公式中的响应变量。参数匹配对于此函数来说是特殊的,请参阅下面的详细信息。UsageSurv(time, time2, event, type=c('right', 'left', 'interval...
2024-06-15 18:27:09 787
原创 MachineLearning 40. 机器学习之基于条件推理树的生存分析临床预测 (CTree)
简 介条件推理树(Conditional inference trees)。条件推断树的算法如下:(1) 对输出变量与每个预测变量间的关系计算p值。(2) 选取p值最小的变量。(3) 在因变量与被选中的变量间尝试所有可能的二元分割(通过排列检验),并选取最显著的分割。(4) 将数据集分成两群,并对每个子群重复上述步骤。(5) 重复直至所有分割都不显著或已到达最小节点为止。条件推理树与决策树有什...
2024-06-13 12:08:50 1002
原创 MachineLearning 39. 机器学习之基于条件随机森林的生存分析临床预测 (CForest)
简介条件随机森林(cforest) 是一个R中用于建立随机森林(Random Forest) 模型的函数。随机森林是一种机器学习算法,通过集成多个决策树来进行预测和分类。创建一个大量决策树的模型,每个决策树都是相互独立的。最后的预测使用来自单个树的所有预测并将它们组合起来。在本文中,我们将介绍 cforest 的用法,并提供一些示例代码。软件包安装软件包安装方式:if(!require("par...
2024-06-12 12:38:36 1070
原创 MachineLearning 38. 机器学习之基于最近收缩质心分类法的肿瘤亚型分类器 (pamr)
简 介基于最近收缩质心分类法(nearest shrunken centroids)的基因表达谱预测癌症类别的方法。缩小了原型,从而得到了一个通常比竞争方法更准确的分类器。“最近的收缩质心”方法确定了最能表征每个类别的基因子集。该技术是通用的,可用于许多其他分类问题。为了证明其有效性,表明该方法在寻找用于分类小圆蓝细胞肿瘤和白血病的基因方面非常有效。软件包安装软件包安装:install.p...
2024-06-06 11:51:59 780
原创 MachineLearning 37. 机器学习之倾斜随机生存森林 (obliqueRSF)
简 介斜随机生存森林(ORSF)是一种集成方法,用于右删节存活数据,它使用输入变量的线性组合递归地划分一组训练数据。正则化Cox比例风险模型用于识别每个递归划分步骤中输入变量的线性组合。模拟和真实数据的基准测试结果表明,与随机生存森林、条件推理森林、回归和增强相比,ORSF预测的风险函数具有较高的预测价值。在Jackson心脏研究数据的应用中,使用ORSF证明了变量和部分依赖性,并强调了其10年...
2024-06-04 21:28:00 1055
原创 MachineLearning 36. 机器学习之基于神经网络的Cox比例风险模型 (Deepsurv)
简 介背景医疗从业者使用生存模型来探索和理解患者协变量(如临床和遗传特征)与各种治疗方案有效性之间的关系。标准的生存模型,如线性Cox比例风险模型,需要广泛的特征工程或先前的医学知识来模拟个体水平上的治疗相互作用。虽然非线性生存方法,如神经网络和生存森林,可以固有地模拟这些高级交互术语,但它们尚未被证明是有效的治疗推荐系统。方法我们引入 DeepSurv,一种 Cox 比例风险深度神经网...
2024-05-24 09:03:17 766
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人