前些日子,由于各种原因,没想写公众号,其实也不是没有时间,就是一旦一件事情有一天没去做,就觉得其实也可以明天做,明天又觉得做不做都行,再过几天,就可能不去做了。所以,有些时候还是要定个计划和目标的,不管有没有意义,不管做多做少,就像吃饭一样,每天吃多吃少还是要吃点的。
今天我们把转录组的差异基因通过Go富集和kegg分析,看看他们是不是真的是差异表达基因。
1.Go富集分析
由于稻瘟病菌没有完整的Go号和orgdb库,需要自己建一个。
第一步首先需要稻瘟病菌MGG基因号和对应的Go号,这个可以在http://geneontology.org/中获取,但不是很全,还有可以通过序列比对找到其他物种的Go号,总之不管用什么方法,找的号越全,差异分析越全。这里通过以前专业分析的数据爬取了4万+个Go号,应该是很全的了。
比如从这个excel中提取MGG对应的Go号
代码如下
import ref =open('CC.csv','w')for line in open('Expression.csv','r'): BF = line.split(',')[1] CC = line.split(',')[2] MF = line.split(',')[3] BF = CC if BF != '': # print(BF) if '///' in BF: MGG = line.split(',')[0] l = BF.split('///') for s in l: go = re.search(r'\d{7}',s.strip(