我用基因表达数据做progject.
我下载"GSE****_series_matrix"的数据(affy的HG_U95**2平台),由于不会处理.cel数据所以没有下载的.cel raw data.
series_matrix类型数据的主要形式如下,行是probeset_ID,列是样本。
在这个下载的数据中,有一些表达值很大而有一些很小(负值),因此需要预处理。
有一些论文(或支持材料)对表达密度值给出了一threshold并的方法,比如:below the minimum threshold of 10 were set at the minimum threshold. The maximum threshold was set at 16,000.
而我所必须使用的一个数据其文献没有给出数据预处理的具体参数,写了邮件也没有回信。
现在有两个问题:
1
那些极端的(正)负值如何处理?需要有一个文献支持,这样所得到的结果有依靠。
normalize时需要log intensity或log ratio作为输入,于是先进行log转化:那些负的值log前肯定需要处理才行。
2
如何归一化呢?
R里的affy包处理的是.cel文件(这个种文件我不会处理,因为可能涉及到背景校正等等更多的预处理步骤。
针对series_matrix,有什么好的软件包使用?
!series_matrix_table_begin
ID_REF GSM23761 GSM23762 GSM23763 GSM23764 GSM23765 GSM23766
34021_at 11.3 25.4 1.7 5.1 2.1 14.2
34011_at -63.3 -135.3 -126.6 -119.1 -42.4 -118.5
33994_g_at 11451.5 15581.6 24475.1 14981 30357.8 11717.6
31307_at 2.5 3.1 5.7 2.9 1.3 1.6