本来是想写在一篇博文里,但是好像内容多了点,所以得分成几篇来写。上篇写基因数据库(表genelist_14922)的一点概况,以及与此相关的一些东西。后面还会对这个数据库进行些分析,所以这里先按下不表。先来看看和基因数据库关联的文献数据库(reflist_14922)。这个表共有29173行。是不是有29173篇文章呢?来查下:
SELECTCOUNT(DISTINCT(Oryzabase_ref_id))FROM`reflist_14922`
结果:5082
也就是说,这个数据库里共有5082篇不同的文章。原因是:一篇文章可以涉及多个基因。这里展示下例子:
SELECTTitle,Journal,COUNT(DISTINCTOryzabase_ID)FROM`reflist_14922`GROUPBYTitleORDERBYCOUNT(DISTINCTOryzabase_ID)
部分结果:
Plant ABC proteins--a unified nomenclature and updated inventory.Trends Plant Sci.128
The class III peroxidase multigenic family in rice and its evolution in land plantsPhytochemistry136
Genome-wide analysis of the ERF gene family in Arabidopsis and rice.Plant Physiol.139
Systematic sequence analysis and identification of tissue-specific or stress-responsive genes of NAC transcription factor family in rice.Mol. Genet. Genomics140
A Bioinformatic Analysis of NAC Genes for Plant Cell Wall Development in Relation to Lignocellulosic Bioenergy ProductionBioenerg. Res.149
Fine structural features of the chloroplast genome: comparison of the sequenced chloroplast genomesNucleic Acids Res.154
The complete sequence of the rice (Oryza sativa) chloroplast genome: intermolecular recombination between distinct tRNA genes accounts for a major plastid DNA inversion during the evolution of cerealsMol. Gen. Genet.162
出现Oryzabase_ID数量最多的一篇文章,其数量高达794,是这篇:
Phylogenetic comparison of FBox (FBX) gene superfamily within the plant kingdom reveals divergent evolutionary histories indicative of genomic drift,PLoS ONE。当然如果说这里面的794个Oryzabase_ID相应的基因都是功能已知的或者克隆了的,我打死也不信。只能说,有人在某种程度研究过。有了数据库以后,可以非常方便的把这些基因调出来.SELECTOryzabase_ID,Gene_symbol_name,Gene_name,TitleFROM`reflist_14922`WHEREOryzabase_ref_id=38654结果:634d3, dwf3, D3/OsMAX2, Os_F0760Phylogenetic comparison of F-Box (FBX) gene superf...
2123apo1(t), apo1, SCM2, SCM2/APO1, OsFbox321, Os_F039...aberrant panicle organization 1, aberrant panicle ...Phylogenetic comparison of F-Box (FBX) gene superf...
8207SaF, OsFbox019, OsFbox19, Os_F0070Gs, F-box protein 19Phylogenetic comparison of F-Box (FBX) gene superf...
8823OsZTL1, OsFbox066, OsFbox66, Os_F0484F-box protein 66Phylogenetic comparison of F-Box (FBX) gene superf...这5082篇关于水稻基因的文章,你当然不可能每篇都去读,你关心的只是其中的部分文章,所以得选择合适的方法把自己感兴趣的那部分文章选出来。怎么选?那看看这个数据库的字段:
row_names:这个就不用了,这是把原始的表从R导入MySQL过程中产生的副产品。
Oryzabase_ID:这个比较重要,这个和基因数据库(genelist_14922)中的trait_gene_id是一致的。通过这个可以建立基因数据库和文献数据库间的联系.
Gene_symbol_name,这个也比较重要,比如我想获得所有关于抽穗期控制基因Hd1的文献,可以这样:
SELECT*FROM`reflist_14922`WHEREGene_symbol_nameLIKE"%hd1%"
这样会搜索出141行结果。关于这个基因最早的报道是1955年
Chandraratna, M.F.Genetics of photoperiod sensitivity in rice.J. Genet.53(2)215-223.1955那篇文章里估计Hd1的名字都不是Hd1.
由于有Journal这个字段,我们也可以看下,哪些期刊会报道水稻基因。
SELECTJournal,COUNT(DISTINCT(Oryzabase_ref_id))FROM`reflist_14922`GROUPBYjournalORDERBYCOUNT(DISTINCT(Oryzabase_ref_id))
共有501种期刊报道过关于水稻的基因,其中报道最多的是下面几个:Mol. Gen. Genet.39
Biosci. Biotechnol. Biochem.42
Molecular Genetics & Genomics (Molecular General G...45
Plant Cell Rep.46
Planta.46
J. Biol. Chem.47
PLoS ONE59
Euphytica64
Plant Sci.68
J. Exp. Bot.69
Gene89
Proc. Natl. Acad. Sci. U.S.A.132
Japan. J. Breed.163
Plant Cell Physiol.185
Plant Cell204
Plant J.212
Breeding Science258
Plant Mol. Biol.266
Theor. Appl. Genet.287
Plant Physiol.348
RGN394
.................................................
未完,待续
转载本文请联系原作者获取授权,同时请注明本文来自闫双勇科学网博客。
链接地址:http://blog.sciencenet.cn/blog-479743-832336.html
上一篇:利用MySQL库分析关于水稻基因的研究(一)
下一篇:利用MySQL库分析关于水稻基因的研究(三)