自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 宽数据与长数据

长数据(Long Data)**是两种常见的数据存储格式,区别在于数据的组织方式以及对分析任务的适应性。掌握这两种格式的转换能极大提高数据处理的灵活性!例如,绘制学生成绩的箱线图时,长数据可直接映射。在R语言中,**宽数据(Wide Data)

2025-04-24 14:38:23 316

原创 微生物组学概论

数据量小,分析成本(学习、电脑资源、时间)低,结果丰富•引物偏好性:不同引物可能扩增出不同的微生物种类•PCR扩增偏差:PCR过程可能引入误差,影响结果的准确性•分辨率有限:只能分析目标基因片段,无法获得完整的基因组信息。

2025-04-21 23:46:43 163

原创 单细胞与Seurat对象及函数_ing

1.如何用subset函数取子集以实现去除多余样本。

2025-02-18 19:12:43 125

原创 数据处理常用R包及命令(持续更新)

查看工作目录下某文件夹的内容。

2025-01-26 22:17:59 157

原创 dplyr包的应用

对数据进行汇总操作,结合group_by使用实用性强。7.getAnyWhere()可以查看R包源代码。

2025-01-23 20:44:01 208

原创 R语言目录环境切换与自动化脚本

R语言中,有些函数能方便切换环境,有助于服务器上无忧运行。这个函数用于检查当前 R 会话所在的目录。

2025-01-14 10:15:22 220

原创 bulk转录组专题:如何获得TPM、CPM、FPKM、FPK的数据

由于gfe文件中自带.14这种的版本号,与我们转换的id不同,我们因此需要处理。此外,须获得的基因长度要与exp中的顺序大小一致。转换为以ENSEMBL(ENSG00000121410)为行名的数据框。如果你继续往下做,很可能会遇到一个报错,即使你的文件看不出任何错误。我们首先需要基因的长度。去下面网址下载以下文件。读取了参考数据,最好的方法还是将表达矩阵转为。为行名的RAW_count表达矩阵。

2025-01-07 23:27:16 880

原创 芯片数据或bulk转录组常用的基因名转换

如果你使用的是基因表达数据(例如RNA-Seq),在分析前通常需要确认数据中的基因标识符类型,并且根据需求可能需要进行转换。表达矩阵非常简单,走常规流程即可,记得在转换时,转换为data.frame的格式。,或者根据需要转换为其他类型的标识符,这通常可以通过注释文件或使用相关的R包(如。无论是芯片还是转录组,我们需要拥有这两个变量,表达矩阵exp和转换所需的ids。需要注意的是,merge函数里不能带某些特殊符号,如“.”。在大多数RNA-Seq数据集中,基因的标识符通常是基因的。

2025-01-07 15:31:02 393

原创 如何自由地差异分析?

差异分析有3大R包:DESeq2、edgeR 和 limma。大家收到代码后,最大的问题是不能自由地使用,只能做无情的拼接侠。而差异分析的重要性使其能在生信文章的任意时刻存在。生信最重要的是理解这几个关键:输入数据什么要求?需要修改什么?最后才是代码的意义。以DESeq2为例,整理差异分析的一般流程。

2024-12-18 22:46:37 865

原创 转录组数据挖掘、生存分析、机器模型

自己领域顶刊的文献;借鉴其他领域的若数据库里面没有,可以让老师帮你挑几个通路数据集,做后续的数据挖掘nucleic acids research收录了许多GEO挖掘出的特殊通路的数据库genecards有各种各样基因的详细记录如GSVA评分不仅在转录组可以评,单细胞也可以多种聚类算法模型的作用是为了筛选基因。如图展示的流程:我们希望在TCGA里构建模型,并在其他GEO数据集中验证。为了不遇到TCGA得出的基因在GEO中没有,就提前将训练集、验证集的数据整理。

2024-12-16 23:56:34 817

原创 单细胞转录组

nfeature是这一个细胞有几个不为零的基因,ncount即为按列求和。

2024-10-24 09:54:19 284

原创 TCGA-RNAseq

• 从GEO数据库找T-N的数据做差异分析,差异基因在TCGA里面继续分析(包括生存分析等)• 和Gtex数据库里的正常样本联合分析,如EXNA数据库。TCGAbiolinks包下载。• 其它临床信息来分组,做差异分析。没有正常样本怎么做差异分析?• 不做T-N差异分析。前17个可直接分析。

2024-10-23 19:29:16 194

原创 转录组数据挖掘

差异分析,富集,机器挖掘,多组学……差异分析与GEO数据所用R包不一样,源于他们测定表达量手段的不同。芯片是先取log后差异分析,转录组不取log!转录组差异分析需要规范的表达矩阵和分组信息:与芯片不同必须要过滤低表达量的基因0或10以内的,分组信息是因子模式。TCGA-XXXX是TCGA的特殊数据要求。

2024-10-23 12:11:08 253

原创 R语言基础总集

R与Rstudio是生信的基础(包括Rtools),必须安装于C盘,且用户名为英文。建议安装时设置为英语语言。取消勾选message translation,免得后续麻烦。

2024-10-22 10:38:19 1335

原创 GEO基础

GEO分析也是数据挖掘的一部分,目的在于减少基因数量,锁定核心基因。数据挖掘数据来源有不分方向的GEO和NHANES,及肿瘤专属的TCGA,ICGC,CCLE,SEER。类型可包括基因表达芯片,转录组,单细胞,突变,甲基化及拷贝数变异等等。

2024-08-08 16:29:31 853

原创 条件与循环

(1)只有if没有else,那么条件是FALSE时就什么都不做。(3)ifelse 如果是TRUE,则执行第一个。apply()族函数。

2024-08-06 16:22:06 191

原创 玩转字符串与数据框

生信过程中,字符串与数据框的处理非常常见。处理字符串,不得不需要stringr包。

2024-08-06 15:08:53 185

原创 R语言画图基础

总论可视:基础包使用不多,不再赘述,如下图:一般以ggplot2和ggpubr为主mapping = aes是映射的意思我们主要以ggplot2为主进行介绍。

2024-08-06 11:03:53 669

原创 数据框、矩阵与列表

R语言中,数据存储依赖于变量,而变量根据维度又有不同的形式。最为常见的即为向量形式,形式为一维。如果针对的是二维的数据形式,如读取表格的数据,则需要数据框、矩阵与列表的形式。

2024-08-03 23:18:21 417

原创 R语言函数与数据类型、向量

按照逻辑值,[]内必须是与X等长的逻辑向量。按照位置,[]内必须是X下标组成的向量。is返回逻辑值,向R提问是否?as是作为的意思,返回转换数值。

2024-07-31 21:56:00 353

原创 R语言你应知道的若干技巧:环境设置/文件读写/报错

在R语言中一般以来Rstudio进行操作。在建立起R project之后,我们需要新建脚本运行代码。一般在脚本中逐行RUN。R project文件夹可以移动,双击Rproj格式文件即可重置默认位置。有关Python的报错不需要管,你可以选择安装,或者找别的教程取消报错。

2024-07-31 21:02:49 610

原创 R语言基础:如何安包?

将Bioconductor镜像设置为使用清华大学的镜像来安装Bioconductor包。: 设置了Bioconductor镜像后,此命令显示更新后的Bioconductor镜像,R将使用它来安装相关包。: 将CRAN镜像设置为使用清华大学的镜像来安装R包。: 显示当前Bioconductor镜像(仓库),R将使用它来安装Bioconductor包。: 显示当前配置的R包安装的仓库选项。默认情况下,它显示当前为R包配置的仓库。: 设置了仓库后,此命令显示更新后的R包安装的仓库选项。

2024-07-31 20:30:57 401

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除