![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
R
文章平均质量分 62
All_Will_Be_Fine噻
所有事物的最终都是美好的,如果不好那就是还没到最后。
展开
-
dittoBarPlot--学习记录
输入是 :单细胞数据构建的 Seurat对象。原创 2024-07-22 11:10:25 · 314 阅读 · 0 评论 -
celltypist使用体验
多个model 测试一下,交叉验证该工具容易过拟合,貌似设置majority_voting = True 表现会好很多我下次还是使用SingleR吧!!!原创 2024-03-28 19:16:16 · 803 阅读 · 0 评论 -
Seurat--V5.0_数据存放结构的改变以及对象的构建
【代码】Seurat--V5.0_数据存放结构的改变以及对象的构建。原创 2024-03-26 17:13:17 · 1037 阅读 · 0 评论 -
ssGSEA -- 学习记录
相比起GSA,GSEA不再关注于差异基因,因此不受p-value以及log2FC的指标的过滤影响,可以获得更多生物学功能变化的信息。但是呢需要多个样本的测序数据才能得到与表型相关的排序数据,如果我只有一个样本呢?或者我的样本没有先验的表型区分呢(也就是没法分组)?ssGSEA说我可以。ssGSEA是单样本的GSEA,对于一个基因集S,每一个样本都可以计算得到一个enrichment score。也就是说其实我们可以从一个多样本的表达矩阵得到另一个矩阵,行是多个不同的基因集S,列仍然是样本,值则是ES。原创 2024-03-08 13:02:00 · 879 阅读 · 2 评论 -
GSEA -- 学习记录
2.富集分数ES,实际上是k-s like test的统计量,所以ES主要表示基因集S的基因的log2FC的分布与不在基因集S的其他基因的log2FC的分布是否一致,当ES大于0并且具有统计学意义时,那我们可以说基因集S内基因相比其他基因表达上调。,其中ORA方法只关心差异表达基因而不关心其上调、下调的方向,也许同一条通路里既有显著高表达的基因,也有显著低表达的基因,因此最后得到的通路结果对表型的解释力度也不大。还有一些基因表达量的变化程度很小,但是其生物学功能可能很重要,那么该如何体现?原创 2024-03-08 12:59:59 · 791 阅读 · 0 评论 -
GSA、GSEA、ssGSEA、GSVA用到的统计学知识点
D本身的分布是通过非常多次改变两样本在x轴上的排序从而计算得到的,每一次打乱样本顺序,都可以计算出相应的一个D,得到一个D的分布,这样就可以考察现在的D的水平是否满足p<0.05。对于这种阶梯式的step function,被描述为random walk,也就是随机游走,随机游走也是一个统计学概念,在这里,我们考虑一个点从原点出发向右行走,当遇到抽样分布的样本点(数据点)时(对应的横坐标),就向上走1/n,如果没遇到就平行x轴行走。是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。原创 2024-03-08 12:55:46 · 1059 阅读 · 0 评论 -
ORA/GSA -- 学习记录
over-representation analysis(ORA),过表“达”分析,就是我们做多分组的RNAseq数据解析后会得到一些差异表达的gene,有些时候是单独拿出一个差异gene去解释表型,缺点是欠缺证据力度。有些人就把一些相关的差异gene放在一块儿解释,比如这些差异gene在某个通路中高表达/低表达,从而引起了这种表型。原创 2024-03-07 17:51:35 · 392 阅读 · 0 评论 -
GSVA -- 学习记录
Gene Set Variation Analysis (GSVA) 基因集变异分析。原创 2024-02-27 15:34:49 · 1719 阅读 · 0 评论 -
ggplot2 -- 发散条形图/柱状偏差图 可视化差异通路
【代码】ggplot2 -- 发散条形图/柱状偏差图 可视化差异通路。转载 2024-02-22 17:09:30 · 67 阅读 · 0 评论 -
ggplot2 -- 火山图可视化差异基因
文章代码来自:https://zhuanlan.zhihu.com/p/518145829。转载 2024-02-22 17:03:03 · 113 阅读 · 0 评论 -
ggplot2 -- 添加显著性检验结果
实验均衡设置时,两组实验样本数量应该是相等得,同时考虑到样本顺序,则可以进行配对样本均值比较。所以剂量和投喂方式都是一种分组因子,并且以组合的方式出现时,我们该如何做显著性检验呢?2.如何自动化为ggplot添加p值和显著性标记,包括箱线图、点图、条形图、线图等等。整个实验设计是每个剂量下投喂两种不同形式的VC/OJ。1.如何简单比较两组或多组的平均值。转载 2024-02-01 09:23:33 · 863 阅读 · 0 评论 -
ggplot2 -- x轴相关操作
【代码】ggplot2 -- x轴相关操作。原创 2024-01-25 16:08:34 · 616 阅读 · 0 评论 -
频数表和列联表,以及进一步处理分析 -- R
数据框包含了一些分类变量,问?原创 2024-01-11 16:57:43 · 532 阅读 · 0 评论 -
单因素方差分析--R
三个剂量水平的药物处理受试者,每个剂量水平十个受试者,现在收集到数据后,问:药物剂量水平显著影响受试者的response?或者不同剂量药物处理受试者有显著效果的差异吗?原创 2024-01-09 16:26:48 · 644 阅读 · 0 评论 -
ggseqlogo
sequence logo图用来可视化一段序列某个位点的保守性,据根提供的序列组展示位点信息。这方面有很多在线小工具可以完成,这里使用R包ggseqlogo进行可视化。下面是使用数据中的位置频率矩阵生成的seqlogo。转载 2023-12-04 11:14:58 · 165 阅读 · 0 评论 -
R -- match,pmatch,charmatch
【代码】R -- match,pmatch,charmatch。原创 2023-10-31 13:10:14 · 697 阅读 · 0 评论 -
R -- SummarizedExperiment
通俗一点来说就是,现在有一个gene表达矩阵,每一行记录的是一个gene的表达量信息,每一列对应一个样品中该gene的表达值。然后,SummarizedExperiment(SE)对象额外记录了一张表,这张表记录了每个gene基因组坐标,长度等信息。RangedSummarizedExperiment对象,是SE的子类,和SE的区别就是SE对象的rowname 是gene name,RangedSummarizedExperiment对象的rowname 是 genomic ranges。转载 2023-10-26 16:19:36 · 261 阅读 · 0 评论 -
R -- download.file()函数
【代码】R -- download.file()函数。转载 2023-10-26 15:07:40 · 110 阅读 · 0 评论 -
ggplot2 -- geom_linerange 函数的简单使用
需要三个参数确定一个直线,x轴位置,y轴起始位置,y轴结束位置。有别于一些垂直辅助线,可以实现柱状图,瓷砖图等等。原创 2023-10-16 11:41:39 · 283 阅读 · 0 评论 -
R package org.Hs.eg.db to convert gene id
这些ID对应关系随着不同数据库的升级和维护有可能出现前后不对应的情况。同时这些ID 也不是一一对应的关系,可能存在一对多或者多对一的关系。原创 2023-08-21 16:08:16 · 654 阅读 · 0 评论 -
R -- Rscript传递参数
然后本人通常使用第一种(getopt)方法,第二种方法也使用过,但是这一部分内容仅仅是记录和比较。第三步是通过parse_args()把解析对象赋值并在后续程序中调用。第一步是使用ArgumentParser()创建一个参数解析对象,第二步是使用add_argument函数为前面的对象增加参数,原创 2023-08-05 10:58:53 · 1224 阅读 · 0 评论 -
TCGA数据批量运行Coxph函数
【代码】TCGA数据批量运行Coxph函数。原创 2023-08-01 13:44:04 · 143 阅读 · 0 评论 -
20230703 -- scRNAseq from gastric cancer
文章标题:《Single-cell atlas of lineage states, tumor microenvironment and subtypespecific expression programs in gastric cancer》原创 2023-07-04 19:01:43 · 132 阅读 · 0 评论 -
logistics regression + LDA + QDA + MARS
【代码】logistics regression + LDA + QDA + MARS。原创 2023-06-20 16:20:07 · 186 阅读 · 0 评论 -
R -- corrplot包
corrplot包常用参数介绍:corr: 必需参数,表示相关性矩阵,可以是数据框或者矩阵。method: 表示绘制相关性矩阵的方法,有以下几种取值:“circle”:绘制圆形相关性矩阵图。“square”:绘制方形相关性矩阵图,不同相关性之间颜色深浅不同。“color”:绘制方形相关性矩阵图,不同相关性之间颜色的深浅和颜色的具体种类都不相同。“pie”:绘制饼图形式的相关性矩阵图。“shade”:绘制灰度相关性矩阵图,颜色越深表示相关性越大。“ellipse”:绘制椭圆形相关性矩阵图。原创 2023-06-17 15:39:15 · 2634 阅读 · 0 评论 -
R -- 小玩具 -- df$variable <- NULL
因此,如果您想永久删除数据框中的某个列(保存在磁盘上的文件没有改变,除非你把内存中的数据刷新到磁盘并覆盖源文件),可以使用。biopsy$ID <- NULL 和 biopsy[,-1] 都可以用于从数据框中删除列或变量。如果您只想在计算过程中删除某些列并保留原始数据框不变,则可以使用。原创 2023-06-17 10:42:23 · 67 阅读 · 0 评论 -
R -- 小玩具 -- 函数 %||%
x是被检测的对象,如果x不为NULL,则返回结果为x。y是默认设置,如果x是NULL 则返回对象为y。原创 2023-06-11 11:45:54 · 53 阅读 · 0 评论 -
学习记录 -- Accurate and fast cell marker gene identification with COSG
COSG的作者认为,如果细胞类群特异性表达的基因为marker,那么其他的marker gene应该存在类似的表达模式,同时目标细胞类群和其它细胞类群之间呈现出不同的表达模式。通常情况下,我们可以找到细胞类群间表达量存在差异的基因,我们认为可以标识细胞类的marker 基因就在 DE之中 ,最好是只在这一个细胞类群中表达的DE,大概率就是marker。,这个基因的表达特征是:只在目标细胞类群中表达,且不在其它任何一个细胞类群中有表达。第二步:假设一共有k个细胞,那么每个基因的表达情况就是一个 k维的向量。原创 2023-06-10 17:21:57 · 524 阅读 · 0 评论 -
R -- loess函数
如果是OLS的话每个数据点的权重是一样的 ,但是现在进行拟合时我们要给每个数据点不一样的权重,使得 x的权重最大(这样就会出现x 对线性拟合的影响最大),距离 x 第一近的 数据点权重第二大,依此类推。其中 span 控制 windows大小,小于1是表示windows占数据点的百分比,大于1表示windows包含所有数据点,有人这样子想了,先把数据分段,然后每段数据内拟合,然后再连接拟合线,当你把数据分段约小,拟合线越平滑。然后计算离他最近的四个点(我们选取的windows = 5),进行线性拟合。原创 2023-06-09 16:28:58 · 3862 阅读 · 0 评论 -
R -- 编码格式问题
这将更改R的选项以将其默认编码设置为UTF-8。但请注意,这将只影响在此后创建的新文件和输出。如果返回的是"native.enc",则表示当前使用的是操作系统默认的本地编码格式。如果返回的是"UTF-8",则表示当前使用的是UTF-8编码格式。,则可以使用相关的函数,并通过参数来指定编码格式。这将返回一个字符串,其中包含当前的编码格式。如果您需要在读取或写入文件时。原创 2023-06-05 17:15:43 · 2327 阅读 · 0 评论 -
R -- 启动环境设置
文章内容来自《R语言实战》原创 2023-05-29 15:34:08 · 66 阅读 · 0 评论 -
R -- seq_along()函数
seq_along()原创 2023-05-29 12:14:12 · 1405 阅读 · 0 评论 -
UpSetR -- 学习记录
【代码】UpSetR -- 学习记录。原创 2023-05-29 11:47:14 · 152 阅读 · 0 评论 -
day2 -- MySQL内部模块
我希望了解一下Mysql的工作原理,实现这个工作原理的各个模块是如何协同工作的。原创 2023-05-28 22:21:47 · 676 阅读 · 0 评论 -
day1 -- 资料库管理系统DBMS
mysql R WSL原创 2023-05-28 12:52:54 · 857 阅读 · 0 评论 -
R -- combn函数 -- 向量元素的组合
combn函数 向量元素组合原创 2023-05-26 15:40:10 · 220 阅读 · 0 评论 -
简单线性线性回归
观测值y是一个随机变量,y的总变异y - mean(y) 可以分解为两部分,第一部分是自变量x变异引起的变异 回归值Y - mean(y),第二部分是误差所引起的变异 y - Y。这里主要记录了一元直线回归分析的学习记录,包括前提假设,数学方程式,评价拟合有度,假设检验,模型应用。x的离均差与y的离均差乘积之和 sum[( x - mean(x)) (y - mean(y))] 记为SP。观测值y和回归值Y的残差平方和( RSS)等于 sum( (y。x的离均差的平方和sum[(x - mean(x))原创 2023-05-18 15:03:55 · 806 阅读 · 1 评论 -
cowplot -- function referrence
【代码】cowplot -- function referrence。原创 2023-05-16 13:14:29 · 81 阅读 · 0 评论 -
热图 -- pheatmap or ggplot2
哪ggplot2可以实现热图嘛?原创 2023-05-15 18:25:19 · 1349 阅读 · 0 评论 -
seurat -- 细胞注释部分
或者是与上面提到的marker genes进行比较,如果出现了某些marker genes则可以认为其是某一类细胞,但是没有“识别到”marker gene不代表该细胞不属于特殊的类群,可能是没检测到。marker genes 个人理解为出现这个基因就可以认为是这种细胞,所以才称为marker gene,marker gene 不等于 difference expression gene,二者有区别和联系。差异基因可以是表达量上存在差异也可以是表达细胞占比上存在差异,通常二者兼顾考虑。原创 2023-05-09 15:19:27 · 1777 阅读 · 0 评论