TCGAplot在线版:输入基因,一键绘制TCGA泛癌肿瘤vs正常box图

本文介绍了TCGA项目收集的癌症样本数据及其在TCGAplotR包中的应用,特别是如何通过在线工具轻松创建基因在肿瘤和正常样本间的表达盒图。通过实例对比,强调了使用最新数据进行研究的重要性,提醒科研人员在分析时需多源验证。
摘要由CSDN通过智能技术生成

1.TCGA简介

TCGAThe Cancer Genome Atlas)收集了大量癌症样本的数据,涉及33种不同癌症、超过 20000个样本,包括外显子组测序、RNA 测序、microRNA 测序、拷贝数变异、蛋白质组和甲基化组,临床信息等数据,研究者可以利用各种生物信息学工具和统计方法来挖掘数据中的有用信息,推动癌症研究的进展。

2.TCGAplot简介

华科同济医院的王雄老师课题组利用TCGA数据库,开发了一个TCGA多组学数据泛癌分析和可视化RTCGAplot[1]。用于泛癌表达以及基因表达与 TMBMSITIME 和启动子甲基化之间相关性等分析。

该包整合了配对和未配对的TPM矩阵,MetaTMBMSI、启动子甲基化、免疫细胞比率和免疫评分等数据,极大地方便了我们进行泛癌分析,堪称泛癌分析的“神器”。

3.一键在线泛癌肿瘤vs正常box

然而,由于R包安装与使用需要相关专业知识,受众有限。为了更好地帮助大家挖掘TCGA,我们与王老师沟通后,决定将TCGAplot R包的强大功能逐步做成在线版供大家免费使用。

今天,给大家带来的第一个函数:某个基因在肿瘤和正常样品中的表达box图。

3.1 打开作图URL

微生信-在线TCGA泛癌基因表达肿瘤vs正常box图

3.2  填写感兴趣的基因,选择参数并提交

将感兴趣的基因symbol粘贴到输入框,由于基因名会更新(见:基因名坑你没商量 -- 有关基因名的坑),所以提交的基因symbol必需在所提供的genelist里边。例如这里填写基因KLF7,即Kruppel-like factor 7,它是一种转录因子,在生物体内各组织中广泛表达,并参与调控细胞的增殖、分化、再生以及肿瘤发生等重要的生理功能。

我们提供了肿瘤组的颜色和正常组的颜色,legend的位置,统计方法,字体等参数供大家选择使用。选择好参数后,点击提交按钮。

3.3 下载图片及数据

由于需要从上万个样品中调取数据并绘图,约30秒后,会出来box图和对应的数据。我们提供了pdfsvg两种矢量图,pngtiff两种标量图供大家下载使用。同时也提供了图片对应的数据供下载。

图片说明:

X轴是33种癌症,按照字母顺序排列。Y轴为log2(TPM+1)表达值。图中红色表示癌症,绿色表示正常。若某癌种没有正常样品则仅显示肿瘤样品(例如ACC)。图片最上面的一排星号表示显著性水平:*表示p<0.05, **表示p<0.01, ***表示p<0.001, ****表示p<0.0001

缩写

英文名

中文翻译

ACC

Adrenocortical carcinoma

肾上腺皮质癌

BLCA

Bladder Urothelial Carcinoma

膀胱尿路上皮癌

BRCA

Breast invasive carcinoma

乳腺浸润癌

CESC

Cervical squamous cell carcinoma and endocervical adenocarcinoma

宫颈鳞癌和腺癌

CHOL

Cholangiocarcinoma

胆管癌

COAD

Colon adenocarcinoma

结肠癌

DLBC

Lymphoid Neoplasm Diffuse Large B-cell Lymphoma

弥漫性大B细胞淋巴瘤

ESCA

Esophageal carcinoma

食管癌

GBM

Glioblastoma multiforme

多形成性胶质细胞瘤

HNSC

Head and Neck squamous cell carcinoma

头颈鳞状细胞癌

KICH

Kidney Chromophobe

肾嫌色细胞癌

KIRC

Kidney renal clear cell carcinoma

肾透明细胞癌

KIRP

Kidney renal papillary cell carcinoma

肾乳头状细胞癌

LAML

Acute Myeloid Leukemia

急性髓细胞样白血病

LGG

Brain Lower Grade Glioma

脑低级别胶质瘤

LIHC

Liver hepatocellular carcinoma

肝细胞肝癌

LUAD

Lung adenocarcinoma

肺腺癌

LUSC

Lung squamous cell carcinoma

肺鳞癌

MESO

Mesothelioma

间皮瘤

OV

Ovarian serous cystadenocarcinoma

卵巢浆液性囊腺癌

PAAD

Pancreatic adenocarcinoma

胰腺癌

PCPG

Pheochromocytoma and Paraganglioma

嗜铬细胞瘤和副神经节瘤

PRAD

Prostate adenocarcinoma

前列腺癌

READ

Rectum adenocarcinoma

直肠腺癌

SARC

Sarcoma

肉瘤

SKCM

Skin Cutaneous Melanoma

皮肤黑色素瘤

STAD

Stomach adenocarcinoma

胃癌

TGCT

Testicular Germ Cell Tumors

睾丸癌

THCA

Thyroid carcinoma

甲状腺癌

THYM

Thymoma

胸腺癌

UCEC

Uterine Corpus Endometrial Carcinoma

子宫内膜癌

UCS

Uterine Carcinosarcoma

子宫肉瘤

UVM

Uveal Melanoma

葡萄膜黑色素瘤

数据说明:

数据包括4列:

CaseidTCGA数据库的ID,由-分割,其中最后一个为01-09的是癌症样品,其他数字为正常样品

Cancer:肿瘤类型

Group:癌症或正常

KLF7:该基因的log2(TPM+1)值,由于存储空间及精度原因,这里仅保留了2位小数。

与其他数据库相比,TCGAplot数据库使用的数据是比较新的,在日常工作中,可以快速查看某基因在癌症中的表达情况。例如比较下NOP2基因在gepia2[2]TCGAplot上的表达值,并通过人工下载TCGA数据,我们发现gepia2的肿瘤数据针对这个基因似乎有一定的偏差,gepia2LAML肿瘤样品表达中位值约5.8TCGAplot和我们自己下载的数据算出来的都约是1.7的样子,差异明显。然而针对FUCA2基因在STAD中,两者结果几乎无差异。感兴趣的小伙伴可以自己试试看。所以,我们在做科研的时候,要多方印证,做出自己的判断,尽信书则不如无书。

NOP2比较(差异明显)

FUCA2比较(几乎无差异)

参考文献:

[1] Liao C, Wang X. TCGAplot: an R package for integrative pan-cancer analysis and visualization of TCGA multi-omics data. BMC Bioinformatics. 2023 Dec 17;24(1):483. doi: 10.1186/s12859-023-05615-3. PMID: 38105215; PMCID: PMC10726608

[2] Tang Z, Li C, Kang B, Gao G, Li C, Zhang Z. GEPIA: a web server for cancer and normal gene expression profiling and interactive analyses. Nucleic Acids Res. 2017 Jul 3;45(W1):W98-W102. doi: 10.1093/nar/gkx247. PMID: 28407145; PMCID: PMC5570223.

微生信助力高分文章,用户163000,引用2960

  • 26
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值