All_Will_Be_Fine噻-CSDN博客

原创 sceasy体验

我的主要工作环境是R，现在想将rds文件转换为h5ad文件，h5ad文件作为cellxgene tools的输入。github地址：https://github.com/cellgeni/sceasy。

2024-09-23 14:06:38 573

原创 sanger序列拼接--一次错误示范

NGS得到了很多的reads，其中有一些paired reads我想根据overlap 搭建起来，因为我对序列的ID做了删减，所以再pandaseq那里跑不通。总结来说，目的很简单，就是把有重叠区域的 reads 搭起来，变成一段更长的序列。

2024-08-06 16:27:45 757

碱基测序质量值 (Phred quality score,Q ) 是测序错误率 (base-calling error probabilities,P)的整数映射，第一行：其中第一行以“@”开头，随后为Illumina 测序标识符 (Sequence Identifiers) 和描述文字 (选择性部分)；第四行：是对应碱基的测序质量，该行中每个字符对应的 ASCII 值减去 33，即为对应第二行碱基的测序质量值。第三行：以“+”开头，随后为Illumina 测序标识符 (选择性部分)；

2024-07-30 10:32:38 693

原创 dittoBarPlot--学习记录

输入是：单细胞数据构建的 Seurat对象。

2024-07-22 11:10:25 580

原创 salmon使用体验

因为我们可以根据 reads summary的方式分为两种定量，一种是 transcript-level quantify,一种是 gene-level quantify。第一点是，通常说的转录组分析其中有一项是转录本定量，这是一个很trick的说话，说成定量/quantify要适合一些。然后 transcripts.fa 是参考转录组文件（这种模式下，可以不用建议参考转录组的index）。这个bam文件是fastq文件与参考转录组比对的结果，注意不是与参考基因组的比对结果。

2024-05-09 19:11:44 1652

原创 Seurat -- Introduction to scRNA-seq integration 跟随学习记录

IntegrateLayers(object = sce, method = CCAIntegration, orig.reduction = “pca”, new.reduction = “integrated.cca”）该方法使用PCA和scale.data下面的数据进行学习，产生一个新的降维数据 @reductions$integrated.cca,然后这个降维数据用于后续的构建SNN图和聚类。data 存放了 normalization后的数据。scale.data 数据进行PCA降维。

2024-04-23 13:42:57 1919 1

原创 celltypist使用体验

多个model 测试一下，交叉验证该工具容易过拟合，貌似设置majority_voting = True 表现会好很多我下次还是使用SingleR吧！！！

2024-03-28 19:16:16 2157

原创 Seurat--V5.0_数据存放结构的改变以及对象的构建

【代码】Seurat--V5.0_数据存放结构的改变以及对象的构建。

2024-03-26 17:13:17 2978

原创 ssGSEA -- 学习记录

相比起GSA，GSEA不再关注于差异基因，因此不受p-value以及log2FC的指标的过滤影响，可以获得更多生物学功能变化的信息。但是呢需要多个样本的测序数据才能得到与表型相关的排序数据，如果我只有一个样本呢？或者我的样本没有先验的表型区分呢（也就是没法分组）？ssGSEA说我可以。ssGSEA是单样本的GSEA，对于一个基因集S，每一个样本都可以计算得到一个enrichment score。也就是说其实我们可以从一个多样本的表达矩阵得到另一个矩阵，行是多个不同的基因集S，列仍然是样本，值则是ES。

2024-03-08 13:02:00 2275 2

原创 GSEA -- 学习记录

2.富集分数ES，实际上是k-s like test的统计量，所以ES主要表示基因集S的基因的log2FC的分布与不在基因集S的其他基因的log2FC的分布是否一致，当ES大于0并且具有统计学意义时，那我们可以说基因集S内基因相比其他基因表达上调。，其中ORA方法只关心差异表达基因而不关心其上调、下调的方向，也许同一条通路里既有显著高表达的基因，也有显著低表达的基因，因此最后得到的通路结果对表型的解释力度也不大。还有一些基因表达量的变化程度很小，但是其生物学功能可能很重要，那么该如何体现？

2024-03-08 12:59:59 1769

原创 GSA、GSEA、ssGSEA、GSVA用到的统计学知识点

D本身的分布是通过非常多次改变两样本在x轴上的排序从而计算得到的，每一次打乱样本顺序，都可以计算出相应的一个D，得到一个D的分布，这样就可以考察现在的D的水平是否满足p＜0.05。对于这种阶梯式的step function，被描述为random walk，也就是随机游走，随机游走也是一个统计学概念，在这里，我们考虑一个点从原点出发向右行走，当遇到抽样分布的样本点（数据点）时（对应的横坐标），就向上走1/n，如果没遇到就平行x轴行走。是一个描述这个随机变量的输出值，在某个确定的取值点附近的可能性的函数。

2024-03-08 12:55:46 1594

原创 ORA/GSA -- 学习记录

over-representation analysis(ORA),过表“达”分析，就是我们做多分组的RNAseq数据解析后会得到一些差异表达的gene，有些时候是单独拿出一个差异gene去解释表型，缺点是欠缺证据力度。有些人就把一些相关的差异gene放在一块儿解释，比如这些差异gene在某个通路中高表达/低表达，从而引起了这种表型。

2024-03-07 17:51:35 1426

原创 GSVA -- 学习记录

Gene Set Variation Analysis (GSVA) 基因集变异分析。

2024-02-27 15:34:49 3051

转载 ggplot2 -- 发散条形图/柱状偏差图可视化差异通路

【代码】ggplot2 -- 发散条形图/柱状偏差图可视化差异通路。

2024-02-22 17:09:30 452

转载 ggplot2 -- 火山图可视化差异基因

文章代码来自：https://zhuanlan.zhihu.com/p/518145829。

2024-02-22 17:03:03 440

转载 ggplot2 -- 添加显著性检验结果

实验均衡设置时，两组实验样本数量应该是相等得，同时考虑到样本顺序，则可以进行配对样本均值比较。所以剂量和投喂方式都是一种分组因子，并且以组合的方式出现时，我们该如何做显著性检验呢？2.如何自动化为ggplot添加p值和显著性标记，包括箱线图、点图、条形图、线图等等。整个实验设计是每个剂量下投喂两种不同形式的VC/OJ。1.如何简单比较两组或多组的平均值。

2024-02-01 09:23:33 2834

原创 ggplot2 -- x轴相关操作

【代码】ggplot2 -- x轴相关操作。

2024-01-25 16:08:34 998

原创频数表和列联表，以及进一步处理分析 -- R

数据框包含了一些分类变量，问？

2024-01-11 16:57:43 681

原创单因素方差分析--R

三个剂量水平的药物处理受试者，每个剂量水平十个受试者，现在收集到数据后，问：药物剂量水平显著影响受试者的response？或者不同剂量药物处理受试者有显著效果的差异吗？

2024-01-09 16:26:48 770

原创非均衡设计评价两个批次的数据一致性

第一批次的药物实验设置了三个剂量（0.2，0.6，1.8）mg/kg，每个剂量水平有十个受试者。第二批次的药物实验设置了其他三个剂量(1.2,2.4,4.8) mk/kg，每个剂量水平有两个受试者。问：这两个数据一致性怎么样？我理解是不是这两批数据可以用一个方程表示？或者说第二批次数据落在第一批次方程的置信区间内？

2024-01-09 15:28:14 490

原创 xCell -- Cell Type Enrichment Analysis

希望得知TCGA的每个癌种中，T cell占比分布。或者说哪种肿瘤T cell在所有细胞中占比多（浸润的多/热肿瘤）

2024-01-04 12:08:22 1768

原创 CompAIRR

CompAIRR可以用于比较两个免疫组库的序列，识别出哪些overlap序列（精确匹配和模糊匹配）。也可以在免疫组库中进行search，找到相同或者相似的序列。对免疫组库进行聚类，实现cluster / clonotype的识别。

2023-12-09 11:11:06 943

翻译 MMSseq2

【代码】MMSseq2。

2023-12-08 11:27:43 950

转载 ggseqlogo

sequence logo图用来可视化一段序列某个位点的保守性，据根提供的序列组展示位点信息。这方面有很多在线小工具可以完成，这里使用R包ggseqlogo进行可视化。下面是使用数据中的位置频率矩阵生成的seqlogo。

2023-12-04 11:14:58 393

原创前向反馈神经网络 -- FNN

神经细胞的树突接受外部信号，细胞体整合这些信号，有些是刺激信号有些是抑制信号，整合后得到一个一般性的信号，如果这个信号强度大则通过轴突往外部传递，如果这个信号强度小则忽略这个信号。这种弹性对于成功的机器学习是重要的。神经细胞组成了人体的反射弧，那么感知器组成了机器的反射弧，从而实现对一些信息（带有特征信息的样本）做出拟人化智能化的反应：分类，预测，排序，回归等。几乎所有的非线性函数都可以充当激活函数，尽管如此，对前向传播算法而言，激活函数必须是可微的，如果是有界函数，将会更有帮助。

2023-11-23 09:28:01 1587

原创 infercnv

不过很多的文章都在用它解析单细胞数据，我也不能仅仅停留在diss它的位置上，开学吧。染色体畸变的类型很多的，有结构上的（片段插入，片段缺失，重组，染色体断裂等等），有数量上的（染色体加倍，非整倍体，基因片段gain or lost）等等。把normal 细胞的表达信号当作背景信号，其他细胞的表达信号减去背景信号，也就是获取偏离normal 的信号，认为他们是gain or loss CNV。文件分为四列，第一列记录基因名称，第二列记录基因在哪条染色体上，以及第三四列记录染色体上的起始终止位点。

2023-11-15 10:38:15 1349 2

原创 R -- 体验 stringdist

amatch仿照R base function match进行设计，通过参数maxDist控制该函数的行为，如果maxDist 设置的很小其表现近似于 exact match，当 maxDist 设置的比较大时则表现的是approximately match。amtch 与 ain的区别类似于match和 %in%，一个返回元素的index，一个返回TRUE/FALSE。则允许当前的字符串和其他的字符置换后计算距离。只允许前后相邻的两个字符串置换，D。的区别主要是最后一个方程式，D。

2023-10-31 16:38:15 991

原创 R -- match,pmatch,charmatch

【代码】R -- match,pmatch,charmatch。

2023-10-31 13:10:14 918

转载 R -- SummarizedExperiment

通俗一点来说就是，现在有一个gene表达矩阵，每一行记录的是一个gene的表达量信息，每一列对应一个样品中该gene的表达值。然后，SummarizedExperiment（SE）对象额外记录了一张表，这张表记录了每个gene基因组坐标，长度等信息。RangedSummarizedExperiment对象，是SE的子类，和SE的区别就是SE对象的rowname 是gene name，RangedSummarizedExperiment对象的rowname 是 genomic ranges。

2023-10-26 16:19:36 957

转载 R -- download.file()函数

【代码】R -- download.file()函数。

2023-10-26 15:07:40 430

原创 ggplot2 -- geom_linerange 函数的简单使用

需要三个参数确定一个直线，x轴位置，y轴起始位置，y轴结束位置。有别于一些垂直辅助线，可以实现柱状图，瓷砖图等等。

2023-10-16 11:41:39 663

原创利用ANARCI标识CDR区域

总有一些朋友丢给我一些抗体蛋白序列，希望我把抗体的框架区和高变区标识出来。然后ANARCI 可以对抗蛋白序列的氨基酸进行编号和allign。所以我想ANARCI可以解决这个问题。

2023-08-23 15:29:38 1256

原创 R package org.Hs.eg.db to convert gene id

这些ID对应关系随着不同数据库的升级和维护有可能出现前后不对应的情况。同时这些ID 也不是一一对应的关系，可能存在一对多或者多对一的关系。

2023-08-21 16:08:16 1132

原创 R -- Rscript传递参数

然后本人通常使用第一种（getopt）方法，第二种方法也使用过，但是这一部分内容仅仅是记录和比较。第三步是通过parse_args()把解析对象赋值并在后续程序中调用。第一步是使用ArgumentParser()创建一个参数解析对象，第二步是使用add_argument函数为前面的对象增加参数，

2023-08-05 10:58:53 1637

原创 TCGA数据批量运行Coxph函数

【代码】TCGA数据批量运行Coxph函数。

2023-08-01 13:44:04 288

原创 20230703 -- scRNAseq from gastric cancer

文章标题：《Single-cell atlas of lineage states, tumor microenvironment and subtypespecific expression programs in gastric cancer》

2023-07-04 19:01:43 255

原创 logistics regression + LDA + QDA + MARS

【代码】logistics regression + LDA + QDA + MARS。

2023-06-20 16:20:07 283

原创 R -- corrplot包

corrplot包常用参数介绍：corr: 必需参数，表示相关性矩阵，可以是数据框或者矩阵。method: 表示绘制相关性矩阵的方法，有以下几种取值：“circle”：绘制圆形相关性矩阵图。“square”：绘制方形相关性矩阵图，不同相关性之间颜色深浅不同。“color”：绘制方形相关性矩阵图，不同相关性之间颜色的深浅和颜色的具体种类都不相同。“pie”：绘制饼图形式的相关性矩阵图。“shade”：绘制灰度相关性矩阵图，颜色越深表示相关性越大。“ellipse”：绘制椭圆形相关性矩阵图。

2023-06-17 15:39:15 4543

原创 R -- 小玩具 -- df$variable ＜- NULL

因此，如果您想永久删除数据框中的某个列(保存在磁盘上的文件没有改变，除非你把内存中的数据刷新到磁盘并覆盖源文件)，可以使用。biopsy$ID <- NULL 和 biopsy[,-1] 都可以用于从数据框中删除列或变量。如果您只想在计算过程中删除某些列并保留原始数据框不变，则可以使用。

2023-06-17 10:42:23 177

空空如也

空空如也