![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
bioinfo
文章平均质量分 66
All_Will_Be_Fine噻
所有事物的最终都是美好的,如果不好那就是还没到最后。
展开
-
dittoBarPlot--学习记录
输入是 :单细胞数据构建的 Seurat对象。原创 2024-07-22 11:10:25 · 314 阅读 · 0 评论 -
salmon使用体验
因为我们可以根据 reads summary的方式分为两种定量,一种是 transcript-level quantify,一种是 gene-level quantify。第一点是,通常说的转录组分析其中有一项是转录本定量,这是一个很trick的说话,说成定量/quantify要适合一些。然后 transcripts.fa 是参考转录组文件(这种模式下,可以不用建议参考转录组的index)。这个bam文件是fastq文件与参考转录组比对的结果,注意不是与参考基因组的比对结果。原创 2024-05-09 19:11:44 · 924 阅读 · 0 评论 -
Seurat -- Introduction to scRNA-seq integration 跟随学习记录
IntegrateLayers(object = sce, method = CCAIntegration, orig.reduction = “pca”, new.reduction = “integrated.cca”)该方法使用PCA和scale.data下面的数据进行学习,产生一个新的降维数据 @reductions$integrated.cca,然后这个降维数据用于后续的构建SNN图和聚类。data 存放了 normalization后的数据。scale.data 数据进行PCA降维。原创 2024-04-23 13:42:57 · 880 阅读 · 0 评论 -
celltypist使用体验
多个model 测试一下,交叉验证该工具容易过拟合,貌似设置majority_voting = True 表现会好很多我下次还是使用SingleR吧!!!原创 2024-03-28 19:16:16 · 803 阅读 · 0 评论 -
Seurat--V5.0_数据存放结构的改变以及对象的构建
【代码】Seurat--V5.0_数据存放结构的改变以及对象的构建。原创 2024-03-26 17:13:17 · 1036 阅读 · 0 评论 -
ssGSEA -- 学习记录
相比起GSA,GSEA不再关注于差异基因,因此不受p-value以及log2FC的指标的过滤影响,可以获得更多生物学功能变化的信息。但是呢需要多个样本的测序数据才能得到与表型相关的排序数据,如果我只有一个样本呢?或者我的样本没有先验的表型区分呢(也就是没法分组)?ssGSEA说我可以。ssGSEA是单样本的GSEA,对于一个基因集S,每一个样本都可以计算得到一个enrichment score。也就是说其实我们可以从一个多样本的表达矩阵得到另一个矩阵,行是多个不同的基因集S,列仍然是样本,值则是ES。原创 2024-03-08 13:02:00 · 879 阅读 · 2 评论 -
GSEA -- 学习记录
2.富集分数ES,实际上是k-s like test的统计量,所以ES主要表示基因集S的基因的log2FC的分布与不在基因集S的其他基因的log2FC的分布是否一致,当ES大于0并且具有统计学意义时,那我们可以说基因集S内基因相比其他基因表达上调。,其中ORA方法只关心差异表达基因而不关心其上调、下调的方向,也许同一条通路里既有显著高表达的基因,也有显著低表达的基因,因此最后得到的通路结果对表型的解释力度也不大。还有一些基因表达量的变化程度很小,但是其生物学功能可能很重要,那么该如何体现?原创 2024-03-08 12:59:59 · 791 阅读 · 0 评论 -
GSA、GSEA、ssGSEA、GSVA用到的统计学知识点
D本身的分布是通过非常多次改变两样本在x轴上的排序从而计算得到的,每一次打乱样本顺序,都可以计算出相应的一个D,得到一个D的分布,这样就可以考察现在的D的水平是否满足p<0.05。对于这种阶梯式的step function,被描述为random walk,也就是随机游走,随机游走也是一个统计学概念,在这里,我们考虑一个点从原点出发向右行走,当遇到抽样分布的样本点(数据点)时(对应的横坐标),就向上走1/n,如果没遇到就平行x轴行走。是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。原创 2024-03-08 12:55:46 · 1059 阅读 · 0 评论 -
ORA/GSA -- 学习记录
over-representation analysis(ORA),过表“达”分析,就是我们做多分组的RNAseq数据解析后会得到一些差异表达的gene,有些时候是单独拿出一个差异gene去解释表型,缺点是欠缺证据力度。有些人就把一些相关的差异gene放在一块儿解释,比如这些差异gene在某个通路中高表达/低表达,从而引起了这种表型。原创 2024-03-07 17:51:35 · 392 阅读 · 0 评论 -
GSVA -- 学习记录
Gene Set Variation Analysis (GSVA) 基因集变异分析。原创 2024-02-27 15:34:49 · 1719 阅读 · 0 评论 -
ggplot2 -- 发散条形图/柱状偏差图 可视化差异通路
【代码】ggplot2 -- 发散条形图/柱状偏差图 可视化差异通路。转载 2024-02-22 17:09:30 · 67 阅读 · 0 评论 -
ggplot2 -- 火山图可视化差异基因
文章代码来自:https://zhuanlan.zhihu.com/p/518145829。转载 2024-02-22 17:03:03 · 113 阅读 · 0 评论 -
ggplot2 -- 添加显著性检验结果
实验均衡设置时,两组实验样本数量应该是相等得,同时考虑到样本顺序,则可以进行配对样本均值比较。所以剂量和投喂方式都是一种分组因子,并且以组合的方式出现时,我们该如何做显著性检验呢?2.如何自动化为ggplot添加p值和显著性标记,包括箱线图、点图、条形图、线图等等。整个实验设计是每个剂量下投喂两种不同形式的VC/OJ。1.如何简单比较两组或多组的平均值。转载 2024-02-01 09:23:33 · 863 阅读 · 0 评论 -
ggplot2 -- x轴相关操作
【代码】ggplot2 -- x轴相关操作。原创 2024-01-25 16:08:34 · 616 阅读 · 0 评论 -
频数表和列联表,以及进一步处理分析 -- R
数据框包含了一些分类变量,问?原创 2024-01-11 16:57:43 · 532 阅读 · 0 评论 -
单因素方差分析--R
三个剂量水平的药物处理受试者,每个剂量水平十个受试者,现在收集到数据后,问:药物剂量水平显著影响受试者的response?或者不同剂量药物处理受试者有显著效果的差异吗?原创 2024-01-09 16:26:48 · 644 阅读 · 0 评论 -
非均衡设计评价两个批次的数据一致性
第一批次的药物实验设置了三个剂量(0.2,0.6,1.8)mg/kg,每个剂量水平有十个受试者。第二批次的药物实验设置了其他三个剂量(1.2,2.4,4.8) mk/kg,每个剂量水平有两个受试者。问:这两个数据一致性怎么样?我理解是不是这两批数据可以用一个方程表示?或者说第二批次数据落在第一批次方程的置信区间内?原创 2024-01-09 15:28:14 · 374 阅读 · 0 评论 -
xCell -- Cell Type Enrichment Analysis
希望得知TCGA的每个癌种中,T cell占比分布。或者说哪种肿瘤T cell在所有细胞中占比多(浸润的多/热肿瘤)原创 2024-01-04 12:08:22 · 1020 阅读 · 0 评论 -
ggseqlogo
sequence logo图用来可视化一段序列某个位点的保守性,据根提供的序列组展示位点信息。这方面有很多在线小工具可以完成,这里使用R包ggseqlogo进行可视化。下面是使用数据中的位置频率矩阵生成的seqlogo。转载 2023-12-04 11:14:58 · 165 阅读 · 0 评论 -
利用ANARCI标识CDR区域
总有一些朋友丢给我一些抗体蛋白序列,希望我把抗体的框架区和高变区标识出来。然后ANARCI 可以对抗蛋白序列的氨基酸进行编号和allign。所以我想ANARCI可以解决这个问题。原创 2023-08-23 15:29:38 · 291 阅读 · 0 评论 -
R package org.Hs.eg.db to convert gene id
这些ID对应关系随着不同数据库的升级和维护有可能出现前后不对应的情况。同时这些ID 也不是一一对应的关系,可能存在一对多或者多对一的关系。原创 2023-08-21 16:08:16 · 654 阅读 · 0 评论 -
学习记录 -- Accurate and fast cell marker gene identification with COSG
COSG的作者认为,如果细胞类群特异性表达的基因为marker,那么其他的marker gene应该存在类似的表达模式,同时目标细胞类群和其它细胞类群之间呈现出不同的表达模式。通常情况下,我们可以找到细胞类群间表达量存在差异的基因,我们认为可以标识细胞类的marker 基因就在 DE之中 ,最好是只在这一个细胞类群中表达的DE,大概率就是marker。,这个基因的表达特征是:只在目标细胞类群中表达,且不在其它任何一个细胞类群中有表达。第二步:假设一共有k个细胞,那么每个基因的表达情况就是一个 k维的向量。原创 2023-06-10 17:21:57 · 524 阅读 · 0 评论 -
cowplot -- function referrence
【代码】cowplot -- function referrence。原创 2023-05-16 13:14:29 · 81 阅读 · 0 评论 -
热图 -- pheatmap or ggplot2
哪ggplot2可以实现热图嘛?原创 2023-05-15 18:25:19 · 1349 阅读 · 0 评论 -
seurat -- 细胞注释部分
或者是与上面提到的marker genes进行比较,如果出现了某些marker genes则可以认为其是某一类细胞,但是没有“识别到”marker gene不代表该细胞不属于特殊的类群,可能是没检测到。marker genes 个人理解为出现这个基因就可以认为是这种细胞,所以才称为marker gene,marker gene 不等于 difference expression gene,二者有区别和联系。差异基因可以是表达量上存在差异也可以是表达细胞占比上存在差异,通常二者兼顾考虑。原创 2023-05-09 15:19:27 · 1777 阅读 · 0 评论 -
SingleR --细胞注释
每一类细胞理论上被分配给一个label,所以热图上显示的scores应该只有一个label与其正交。原创 2023-05-09 13:41:18 · 964 阅读 · 2 评论 -
Seurat -- 数据集的整合
这里主要根据seurat的教程走的,描述了多个单细胞数据集的整合,其中数据集的integration并不是简单的数据集的merge。同时这里描述的流程仅仅包括同类型的scRNA-seq测序数据,像scRNA-seq与scATAC-seq等多模态数据的整合暂未涉及。前者包括元信息的整合,数据集之间的批次矫正,后者仅仅是对数据表的拼接,后续直接renormalization即可。整合前的数据以及LogNormalization的数据一直存放在RNA@data@x下面。整合前和整合后 anchors的数值变化。原创 2023-05-08 17:02:52 · 1217 阅读 · 0 评论 -
Seurat -- Cluster the cells --第一部分
上面的描述可以认为是KNN的原理或者思想。我们需要关注的是如何快速从数据集中找到和目标样本最接近的K个样本?如果数据量很小,我们可以根据距离度量公式计算一个距离度量表,然后排序后筛选K个最近邻。如果数据量很大,再计算每个数据点的距离会很耗费资源,所以需要特殊的实现方法以节省资源,比如KDtree,Annoy等。下面的内容来自博客:原文链接:https://blog.csdn.net/qq_40793975/article/details/84817018。原创 2023-05-08 11:45:09 · 621 阅读 · 0 评论 -
R安装 github上的包
这里你可能会遇到 如下错误:401错误,验证没通过的问题。原创 2023-05-05 14:47:31 · 2021 阅读 · 0 评论 -
Seurat -- SCTransform
【代码】Seurat -- SCTransform。原创 2023-05-01 23:07:05 · 580 阅读 · 0 评论 -
seurat -- 关于DE gene的讨论
这里就很有意思,不同的normalization方法处理后的数据放在了不同的data下面,具体是哪个?其中 MAST and DESeq2需要自己额外安装。t-test是个人最不推荐使用的方法。原创 2023-05-01 21:10:05 · 519 阅读 · 0 评论 -
Seurat -- Perform linear dimensional reduction
什么是线性降维?这里是一个很形象的,其中包括了一个视频链接。这里是如何用R 包psych做线性降维的,其中也有原理的简述。为什么要做线性降维?因为下一步的聚类分析需要这里的降维结果作为输入。降维做的好,聚类时细胞类群才分得开分的好。这里使用的 input是上一步的 select highly variable features对应的scale数据。highly variable features选的不好,降维算法再牛逼也可能拯救不了你的数据结果。原创 2023-05-01 17:23:00 · 1364 阅读 · 0 评论 -
Seurat -- ScaleData学习
seurat提供了一个教学,其中global scale normalization之后又对数据进行了scale。默认是对上一步 selected highly variable features进行scale。原创 2023-04-27 16:10:44 · 1895 阅读 · 0 评论 -
Seurat -- variable features select
这里主要记录了 FindVariableFeatures的学习过程。。原创 2023-04-25 16:39:42 · 895 阅读 · 0 评论 -
Seurat -- Normalize Data
首先RC这种normalization.method我们就不考虑了,和LogNormalize比较你可以发现LogNormalize 之前做的就是RC然后做了log转化。log转化让方差稳定而且非正态的数据近似于正态分布了。最主要要比较的是CLR和LogNormalize,CLR称为中心对数转化,具体原理和算法需要技术文档帮助,这里不写了。我读到这里才发现改函数还会对原始的counts数据进行矫正,然后放到。上述构建的seurat object。原创 2023-04-25 14:50:14 · 1527 阅读 · 0 评论 -
Seurat对象的QC和filter
【代码】Seurat对象的QC和filter。原创 2023-04-25 10:47:43 · 154 阅读 · 0 评论 -
20230417 -- 处理 多个VHH sanger测序序列
【代码】20230417 -- 处理 多个VHH sanger测序序列。原创 2023-04-17 15:50:41 · 144 阅读 · 0 评论 -
CCLE简介
CCLE简介翻译 2023-03-01 16:37:09 · 548 阅读 · 0 评论 -
学习记录:featurecounts
featurecounts学习记录原创 2023-01-13 13:39:03 · 880 阅读 · 0 评论 -
使用ascp
【代码】使用ascp。原创 2022-09-23 18:54:10 · 474 阅读 · 2 评论