单基因gsea_把基因数量搞小的数据挖掘想法是好的但可能不现实

我一直强调:数据挖掘的核心是缩小目标基因!

各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。

其实还有另外一个策略方向,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可。最近比较热门的有:自噬基因,铁死亡,EMT基因,核受体基因家族,代谢基因。还有一个最搞笑的是m6a基因的策略,完全是无厘头的基因集搞小,纯粹是为了搞小而搞小。

虽然说数据挖掘的核心就是把基因集的数量搞小,但是实际上大家都只是在自己的数据集上面自圆其说而已。最近听一个演讲,就提到了在乳腺癌领域的已经发表的33个基因集,他们的overlap其实非常少,如下所示:

8d2e1b7095e9a866907e25349d14e65e.png

不同的基因集overlap很差

绝大部分的基因仅仅是单一的基因集里面出现,不具备可重复性。出现两次及以上的也仅仅是10%的基因,出现在8个以上的基因集里面的基因就只剩下1个了,就是MKI67代表细胞增殖功能的,更别说是出现在33个基因集里面的。

但是,如果考虑这些基因所 代表的GO数据库功能条目,重复性就好了一点,至少出现2次的基因提高到了20%。

然后研究者单独拿出来了乳腺癌领域久经考验的70个基因 的基因集,发现如果是随机选择70个基因,随机1万次,也有接近30%的可能性拿到比这个久经考验的70个基因 的基因集表现要好的情况。

c19c4c4d65df6c0853f1b898e4dd5190.png

 

为什么会出现这样的情况呢?

其实如果你拿到任何一个带有临床生存信息表达矩阵,都可以拿到很多有统计学意义的生存相关基因,这些基因都可以找到共表达基因,它们本来就相互连接起来了。

学徒作业

就拿TCGA数据库的乳腺癌的RNA-seq矩阵,从ucsc的xena浏览器下载,1000个左右的肿瘤病人数据里面的全部的基因做wgcna后看看分成多少个模块。

然后看看统计学显著的2000多个生存相关基因再次wgcna分成多少个模块。

然后看看两个模块根据各自的数据库功能能不能对应起来。

历年学徒作业目录如下:

  • 生信编程直播课程优秀学员作业展示1
  • 生信编程直播课程优秀学员学习心得及作业展示3
  • 生信编程直播课程优秀学员作业展示2
  • 给学徒的GEO作业
  • 这个WGCNA作业终于有学徒完成了!
  • 上次说的gmt函数(学徒作业)
  • 拖后腿学徒居然也完成作业,理解RNA-seq数据分析结果
  • 肿瘤外显子视频课程小作业
  • ChIPseq视频课程小作业
  • Agilent芯片表达矩阵处理(学徒作业)
  • 学徒作业:TCGA数据库单基因gsea之COAD-READ
  • 学徒作业-在CCLE数据库里面根据指定基因在指定细胞系里面提取表达矩阵
  • 学徒作业-指定基因在指定组织里面的表达量热图
  • 学徒作业-我想看为什么这几个基因的表达量相关性非常高
  • 学徒作业:给你8个甲基化探针, 你在tcga数据库进行任意探索
  • 学徒作业-根据我的甲基化视频教程来完成2015-NPC-methy-GSE52068研究
  • RNA芯片和测序技术的比较(学徒作业)
  • 学徒作业-单基因的tcga数据挖掘分析
  • ATCC终于出来了organoids资源
  • 拿到7个DDR通路的基因集-学徒作业
  • 绘图本身很简单但是获取数据很难
  • 都说lncRNA只有部分具有polyA尾结构,请证明
  • 学徒作业-hisat2+stringtie+ballgown流程
  • 学徒任务-探索DNA甲基化的组织特异性
  • 用WES和RNA-Seq数据提取到的somatic SNVs不一致
  • 《GEO数据挖掘课程》配套练习题

文末友情推荐

要想真正入门生物信息学建议务必购买全套书籍,一点一滴攻克计算机基础知识,书单在:什么,生信入门全套书籍仅需160 。如果大家没有时间自行慢慢摸索着学习,可以考虑我们生信技能树官方举办的学习班。如果你课题涉及到转录组,欢迎添加一对一客服:详见:你还在花三五万做一个单细胞转录组吗?

号外:生信技能树知识整理实习生招募,长期招募,也可以简单参与软件测评笔记撰写,开启你的分享人生!另外,:绝大部分生信技能树粉丝都没有机会加我微信,已经多次满了5000好友,所以我开通了一个微信好友,前100名添加我,仅需150元即可,3折优惠期机会不容错过哈。我的微信小号二维码在:0元,10小时教学视频直播《跟着百度李彦宏学习肿瘤基因组测序数据分析

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值