数据挖掘概述:使用计算机技术手段从大数据集中寻找规律的技术,由于大数据具有高价值,低密度的特性所以它的规律并不是很简单就可以看出来的,而是隐含在大数据之中,所以我们需要一定的技术手段进行对我们所需要的数据进行寻找和挖掘。我们在进行疾病分析的时候需要大量的数据进行分析,但是这些数据怎么获得,怎么应用,怎么作用在我们的研究中,这就需要数据挖掘的作用了。
TCGA:是地球上当前最大的肿瘤数据库,有很多的临床信息,可以从临床信息中得出很多有效的数据如癌症的生存率
GEO :GEO数据库是一个储存芯片、二代测序以及其他高通量测序数据的一个数据库。利用这个数据库,我们可以检索到其他一些人上传的一些实验测序数据,是现在最大最全面的公共基因表达数据资源。
我所做的所有分析与教程的代码都会在我的个人公众号中,请打开微信搜索“生信学徒”进行关注,欢迎生信的研究人员和同学前来讨论分析。
ps:公众号刚刚建立比较简陋,但是该有的内容都不会少。