竹篱茅舍1997-CSDN博客

原创 bioinformatics小技巧

1. linux上python2的安装Installing a custom version of Python 2：https://help.dreamhost.com/hc/en-us/articles/115000218612-Installing-a-custom-version-of-Python-2

2020-05-14 11:29:51 1875 1

翻译 Nature Communications: MOGONET使用图卷积网络集成多组学数据，允许患者分类和生物标志物识别

本文提出了一种新的多组学整合方法-多组学图卷积网络(Multi-Omics Graph cOnvolutional NETworks，MOGONET)用于生物医学分类。MOGONET联合探索组学特异性学习和跨组学相关学习，以实现有效的多组学数据分类。

2023-06-12 21:42:14 3898 1

翻译 Molecular Neurodegeneration: 东英吉利大学综述“微生物衍生代谢物是与年龄相关的认知能力下降和痴呆的危险因素

全球人口日益老龄化的一个后果是，全球范围内与年龄相关的认知能力下降和痴呆症的患病率日益上升。

2023-06-12 21:40:30 1807

翻译 Molecular Neurodegeneration: 东英吉利大学综述“微生物衍生代谢物是与年龄相关的认知能力下降和痴呆的危险因素

全球人口日益老龄化的一个后果是，全球范围内与年龄相关的认知能力下降和痴呆症的患病率日益上升。

2023-06-11 16:04:35 1157

翻译 Nature Machine Intelligence: 刘洋彧等利用神经常微分方程预测微生物代谢谱

表征微生物群落的代谢特征对于理解其生物学功能及其对宿主或环境的影响至关重要。直接测量这些特征的代谢组学实验是困难和昂贵的，然而，量化微生物群落的物种组成的测序方法已经发展得很好，而且成本相对较低。能够从微生物组成预测代谢组谱的计算方法可以节省代谢组谱实验所需的大量时间。然而，尽管已有了一些研究成果，我们仍然缺乏一种预测能力强、普遍适用性强、可解释性好的计算方法。

2023-06-07 20:43:56 1555

翻译 Nature Communications: 使用自然语言处理解密微生物基因功能

通讯作者为：以色列特拉维夫大学的David (Dudu) Burstein在测序数据量不断增加的时代，揭示未表征基因的功能是一项基本挑战。在这里，我们提出了一个使用自然语言处理（NLP）中采用的深度学习方法来应对这一挑战的概念。我们重新调整了NLP算法的用途，以基于其基因组背景下超过3.6亿个微生物基因的生物语料库为基础，对**“基因语义(gene semantics)”进行建模。

2023-06-06 16:52:07 1332

原创微生物差异丰度分析方法: MaAsLin 2 (Microbiome Multivariable Associations with Linear Models)

微生物多组学数据挖掘存在的问题: noisy, sparse(zero-inflated), high-dimensional, extremely non-normal, and often in the form of count or compositional measurements.MaAsLin 2（MicrobiomeMAL。

2023-05-29 14:57:01 7016

原创微生物差异丰度分析方法ANCOM-BC(Analysis of Compositions of Microbiomes with Bias Correction)

采样分数受两个因素的影响，即生态系统单位体积中的微生物负荷和相应样本的文库大小(例如，从受试者的粪便样本中测序的物种总丰度)。该公式在该领域取得了根本性的进步，因为与现有方法不同，它 (a) 提供具有适当 p 值的统计有效检验，(b) 为每个分类单元的差异丰度提供置信区间，© 控制错误发现速率 (FDR)，(d) 保持足够的功率，并且 (e) 在计算上易于实现。在本文中，我们定义了“抽样分数”的概念，并证明了对微生物组数据进行 DA 分析的主要障碍是样本间抽样分数的差异所引入的偏差。

2023-05-29 14:53:57 3364

翻译 TreeExplainer原文精读: 用于树的可解释人工智能SHAP Tree

如果不近似，TreeExplainer调用的函数是, 其定义为https://github.com/slundberg/shap/blob/master/shap/cext/_cext.cc#L113。下面的代码引用了Python.hPyObjectreturns atypenumand aflagsstruct 是 C 语言中用来定义结构体类型的关键字。static 关键字可以用来修改变量或函数的存储类别。

2023-05-28 13:12:44 2491

翻译可解释机器学习模型：解释SHAP分析的非技术指南

随着可解释性成为机器学习项目越来越重要的要求，越来越需要将SHAP等技术的复杂输出传达给非技术利益相关者。

2023-05-17 17:17:01 10921 2

翻译监督聚类：如何使用SHAP Values进行更好的聚类分析

聚类分析(clustering)是识别人群中亚群的一种流行方法，但其结果往往难以解释和采取行动。监督聚类(*Supervised clustering*)利用Shapley Additive Explanations (SHAP)值，使用更结构化的数据表示来识别更好地分离的集群。

2023-05-17 15:28:51 2376 1

翻译使用MMUPHin进行微生物组研究的荟萃分析

使用MMUPHin进行微生物组研究的荟萃分析

2023-05-14 15:04:57 1865

翻译机器学习中解决不平衡分类的10种技术

作为一名数据科学家，二分类是最常见的分类模型之一。在解决这些问题时，一个常见的问题是类不平衡(class imbalance)。当一个类别的观察结果高于其他类别时，就会存在类别失衡。示例：检测欺诈性信用卡交易。

2023-05-11 16:58:20 4496

翻译胶囊网络教程(Understanding Hinton’s Capsule Networks)

Hinton和他的团队提出了一种训练这种由胶囊组成的网络的方法，并在一个简单的数据集上成功地训练了它，实现了最先进的性能。这是非常令人鼓舞的。尽管如此，还是存在挑战。当前的实现比其他现代深度学习模型慢得多。时间将证明胶囊网络是否可以快速有效地进行训练。此外，我们需要看看它们在更困难的数据集和不同的领域是否能很好地工作。

2023-05-04 13:49:16 1129 2

翻译 PyTorch系列教程(1)：基础知识

_init____len__和。看看这个实现；FashionMNIST图像存储在目录img_dir中，它们的标签分别存储在CSV文件中。在接下来的部分中，我们将对这些函数中的每一个进行分解。__init__函数在实例化Dataset对象时运行一次。我们初始化包含图像、注释文件和这两个转换的目录（在下一节中详细介绍）。......__len__函数返回数据集中的样本数。函数从给定索引idx的数据集中加载并返回一个样本。根据索引，它识别图像在磁盘上的位置，使用read_image。

2023-05-02 22:15:55 268

翻译图神经网络系列教程(1)： Supervised graph classification with Deep Graph CNN

这种差异可归因于下面列出的少数因素，-我们使用了不同的训练方案，即对数据进行90/10的单一分割，而不是[1]中使用的重复10倍交叉验证方案。我们的目标是训练一个机器学习模型，该模型使用数据的图形结构以及图形节点可用的任何信息，例如蛋白质中化合物的化学属性，以预测之前未看到的图形的正确标签；DGCNN架构是在[1]中提出的（参见[1]中的图5），使用了[2]中的图卷积层，但修改了传播规则（详见[1]）。层，以通过图卷积层的堆栈为每个节点学习的表示作为输入，为每个给定的图生成表示（也称为嵌入）。

2023-04-14 18:04:57 881 1

翻译 R中的主成分分析(Principal Component Analysis, PCA)

作为零售行业的数据科学家，假设您正试图从包含以下五个特征的数据集中了解是什么让客户满意：每月费用、年龄、性别、购买频率和产品评级。为了更好地分析并得出可操作的结论，我们需要了解数据集，或者至少将其可视化。人类无法轻易地可视化超过三个维度，因此可视化具有五个特征（维度）的客户数据并不简单。这就是主成分分析（, PCA）的用武之地。“但是，什么是主成分分析(它是一种统计方法，可用于分析高维数据并从中捕获最重要的信息。这是通过将原始数据转换到低维空间，同时将高度相关的变量整理在一起来完成的。

2023-03-04 12:01:59 3125 1

原创《机器学习实战：基于Scikit-Learn、Keras和TensorFlow》第1章机器学习概览课后习题

本章中，我们提及了机器学习中最重要的一些概念。第2章将会进行更深入的探讨，也会写更多代码。

2023-03-02 14:56:39 717

翻译 NetMoss2微生物组网络分析

NetMoss2文献阅读

2023-02-18 21:31:32 2684 4

翻译 Spearman相关系数的含义及适用场景

Spearman相关系数的含义及其适用场景

2023-02-13 17:10:07 16303

翻译图扩散卷积：Graph_Diffusion_Convolution

GDC（Graph diffusion convolution，图扩散卷积）是一个预处理步骤，可以应用于任何图(graph)，并与任何基于图(graph)的算法一起使用。我们进行了大量的实验(超过10万次的训练)，以表明GDC在各种各样的模型和数据集上持续地提高了预测的准确性。但要记住，GDC基本上利用了大多数图(graph)中的同质性。**同质性是指相邻节点趋于相似的属性，即物以类聚**。因此，它并不适用于每个数据集和模型。

2022-09-12 13:32:40 17338 1

翻译广义线性模型glmmTMB包

`glmmTMB`是一个建立在 Template Model Builder（https://github.com/kaskr/adcomp）自动分化引擎上的R包，用于拟合广义线性混合模型及其延伸。

2022-08-28 18:06:44 4907 4

翻译使用基于ggplot2的包ggalluvial绘制桑基图（冲积图）

使用ggalluvial绘制桑基图(冲积图）

2022-08-14 22:04:57 12826 4

翻译基于PyG(PyTorch Geometric)的图神经网络学习（1）

PyG *(PyTorch Geometric)*是一个建立在 PyTorch上的库，便于写和训练在结构化数据中具有广泛应用的图神经网络(Graph Neural Networks, GNNs)。

2022-08-08 17:35:35 1013

翻译 NGLess: 使用更少的工作来进行二代测序数据处理

NGLess: 使用更少的工作来进行二代测序数据处理NGLess论文：Coelho L P, Alves R, Monteiro P, et al. NG-meta-profiler: fast processing of metagenomes using NGLess, a domain-specific language[J]. Microbiome, 2019, 7(1): 1-10.NGLess官方文档：https://ngless.embl.de/index.htmlNGLess(

2022-04-26 00:10:33 723

翻译三种模型验证方法：holdout, K-fold, leave one out cross validation(LOOCV)

Cross Validation: A Beginner’s GuideAn introduction to LOO, K-Fold, and Holdout model validationBy: Caleb Neale, Demetri Workman, Abhinay Dommalapati源自：https://towardsdatascience.com/cross-validation-a-beginners-guide-5b8ca04962cd文章目录Cross Validation

2022-04-11 20:50:26 5504

翻译嵌套交叉验证的一致特征（Consensus features nested cross-validation）

5.5 嵌套交叉验证的一致特征（Consensus features nested cross-validation）参考：Parvandeh S, Yeh H W, Paulus M P, et al. Consensus features nested cross-validation[J]. Bioinformatics, 2020, 36(10): 3093-3098.代码： https://github.com/insilico/cncv浅谈关于特征选择算法与Relief的实现：htt

2022-03-28 10:24:11 994

翻译递归特征消除(Recursive Feature Elimination）原理与Sklearn实现

递归特征消除(Recursive Feature Elimination)参考：Guyon, I., Weston, J., Barnhill, S., & Vapnik, V., “Gene selection for cancer classification using support vector machines”, Mach. Learn., 46(1-3), 389–422, 2002. https://link.springer.com/article/10.1023/A:1

2022-03-26 20:37:06 17071 2

原创基于mRMRe的最大相关最小冗余特征选择

基于mRMRe的特征选择参考：论文：De Jay N, Papillon-Cavanagh S, Olsen C, et al. mRMRe: an R package for parallelized mRMR ensemble feature selection[J]. Bioinformatics, 2013, 29(18): 2365-2368.代码：https://cran.r-project.org/web/packages/mRMRe/index.html5.1.1 方法介绍

2022-03-26 15:01:55 2644 1

原创 06.Logistic回归与最大熵模型（学习笔记）

06.Logistic回归与最大熵模型参考：袁春老师《大数据机器学习公开课》：https://www.xuetangx.com/course/THU08091001026/10333105李航老师《统计学习方法》：https://book.douban.com/subject/33437381/ppt下载自pythonic生物人，链接: https://pan.baidu.com/s/1H0vHLyqQXNxRFxNVQzpllQ 密码: im0u文章目录06.Logistic回归与最大

2022-03-14 13:37:22 1723

原创 05决策树与随机森林（学习笔记）

文章目录1. 决策树模型与学习基本概念2. 信息量和熵3. 决策树的生成3.1 决策树ID3算法4. 决策树的剪枝4.1 决策树算法的问题4.2 决策树的剪枝【P65】4.3 树的剪枝算法5. CART算法5.1 CART树的生成5.1.1 回归树的生成【P71】5.1.2 分类树的生成5.1.3 CART分类树的生成算法5.2 CART的剪枝5.2.1 剪枝，形成一个子树序列5.2.2 选取最优子树TαT_{\alpha}Tα6. 随机森林6.1 随机森林简介6.2 Bootstrapping和Bag

2022-03-12 16:44:02 1220

翻译 4.微生物组机器学习包SIAMCAT学习

论文：Wirbel, J., Zych, K., Essex, M. et al. Microbiome meta-analysis and cross-disease comparison enabled by the SIAMCAT machine learning toolbox. Genome Biol 22, 93 (2021). https://doi.org/10.1186/s13059-021-02306-1Github代码：https://github.com/zellerla...

2022-03-04 14:28:08 2246 1

原创微生物组基因分析流程shotgene安装与nextflow初探

3. 基于GeneShot的分析参考：Minot, S.S., Barry, K.C., Kasman, C. et al. geneshot: gene-level metagenomics identifies genome islands associated with immunotherapy response. Genome Biol 22, 135 (2021). https://doi.org/10.1186/s13059-021-02355-6Github代码：https://g

2022-02-20 15:03:51 548

翻译 snakemake教程-03额外特征

文章目录额外的特征1. Benchmarking（基准测试）2. Modularization（模块化）3.Automatic deployment of software dependencies（自动部署软件依赖项）4. Tool wrappers（工具包装）5. Cluster execution6. Using –cluster-status7.Constraining wildcards额外的特征接下来，我们将介绍更多上面的案例没有包括的特征。更多细节和更多特征，可以参考 Writing Wo

2021-07-04 22:25:28 1589

翻译 snakemake教程-02进阶部分

文章目录进阶部分：对案例进行进一步修饰Step 1: Specifying the number of used threadsStep 2: Config filesStep 3: Input functionsStep 4: Rule parametersStep 5: LoggingStep 6: Temporary and protected files练习Summary参考：https://snakemake.readthedocs.io/en/stable/tutorial/advanced

2021-07-04 17:52:52 2517

翻译 Snakemake教程-01基础部分

文章目录1. snakemake简介1.1 初识snakemake2. Snakemake教程2.1安装2.2 Basic: An example workflow2.2.1 Step 1: Mapping readsStep 2: Generalizing the read mapping ruleStep 3: Sorting read alignmentsStep 4: Indexing read alignments and visualizing the DAG of jobsStep 5: Ca

2021-07-04 10:45:28 6702

原创 stLFR(single tube Long Fragment Read)介绍

stLFR(single tube Long Fragment Read): 单管长片段序列，是由华大制造自主研发的基于DNBSEQ平台的，一种长片段读取技术，可实现读取序列的长度高达10k~300k。发展历史：时间代表论文2012Peters, B., Kermani, B., Sparks, A. et al. Accurate whole-genome sequencing and haplotyping from 10 to 20 human cells. Nature 4

2021-03-04 11:36:46 3788 1

翻译 Machine Learning in Complex Networks读书笔记

文章目录第1章简介1.1 大背景1.2 本书的关注点第1章简介1.1 大背景（1）机器学习基本概念：监督学习，非监督学习，分类，回归，半监督学习。（2）复杂网络的发展历史：a. 1736年，欧拉在解决哥尼斯堡七桥问题时，奠定了图论基础。b.1959年，Paul Erdos和Alfred Reyni提出了random networks。c.1967年，Stanley Milgram发现了“六度分离”的概念，成为了小世界网络的研究的种子。d.1998年，Watts和Strogatz发现改变

2020-09-15 13:19:56 508 1

翻译 Complex Network Analysis in Python学习笔记

代码下载：https://pragprog.com/titles/dzcnapy/complex-network-analysis-in-python/文章目录Preface1. The Art of Seeing Networks.Part I - Elementary Networks and tools.2. Surveying the Tools of the Craft3. Introducing NetworkXPreface1. The Art of Seeing Networks..

2020-09-13 16:00:31 2194 2

翻译 DNA序列的机器学习方法

参考：https://www.kaggle.com/thomasnelson/working-with-dna-sequence-data-for-ml在生物计算中，处理DNA序列是很常见的。熟悉biopython将能够真正帮助你用python来处理生物序列数据。!pip install biopythonCollecting biopython Downloading https://files.pythonhosted.org/packages/8e/44/3b5b7e68ca414a6.

2020-06-02 15:37:26 11044 6

空空如也

空空如也