水稻PHP基因,科学网—利用MySQL库分析关于水稻基因的研究(二) - 闫双勇的博文...

本文分析了一个包含29173条记录的文献数据库reflist_14922,发现其中5082篇不同的文章与基因数据库genelist_14922相关。文章涉及的基因数不等,最多的一篇涉及794个基因。通过Oryzabase_ID,可以建立两个数据库之间的联系。通过查询,可以找到特定基因如Hd1的相关文献,并了解其最早报道。此外,文章还探讨了如何筛选感兴趣的文章,并列举了报道水稻基因最多的期刊。
摘要由CSDN通过智能技术生成

本来是想写在一篇博文里,但是好像内容多了点,所以得分成几篇来写。上篇写基因数据库(表genelist_14922)的一点概况,以及与此相关的一些东西。后面还会对这个数据库进行些分析,所以这里先按下不表。先来看看和基因数据库关联的文献数据库(reflist_14922)。这个表共有29173行。是不是有29173篇文章呢?来查下:

SELECTCOUNT(DISTINCT(Oryzabase_ref_id))FROM`reflist_14922`

结果:5082

也就是说,这个数据库里共有5082篇不同的文章。原因是:一篇文章可以涉及多个基因。这里展示下例子:

SELECTTitle,Journal,COUNT(DISTINCTOryzabase_ID)FROM`reflist_14922`GROUPBYTitleORDERBYCOUNT(DISTINCTOryzabase_ID)

部分结果:

Plant ABC proteins--a unified nomenclature and updated inventory.Trends Plant Sci.128

The class III peroxidase multigenic family in rice and its evolution in land plantsPhytochemistry136

Genome-wide analysis of the ERF gene family in Arabidopsis and rice.Plant Physiol.139

Systematic sequence analysis and identification of tissue-specific or stress-responsive genes of NAC transcription factor family in rice.Mol. Genet. Genomics140

A Bioinformatic Analysis of NAC Genes for Plant Cell Wall Development in Relation to Lignocellulosic Bioenergy ProductionBioenerg. Res.149

Fine structural features of the chloroplast genome: comparison of the sequenced chloroplast genomesNucleic Acids Res.154

The complete sequence of the rice (Oryza sativa) chloroplast genome: intermolecular recombination between distinct tRNA genes accounts for a major plastid DNA inversion during the evolution of cerealsMol. Gen. Genet.162

出现Oryzabase_ID数量最多的一篇文章,其数量高达794,是这篇:

Phylogenetic comparison of FBox (FBX) gene superfamily within the plant kingdom reveals divergent evolutionary histories indicative of genomic drift,PLoS ONE。当然如果说这里面的794个Oryzabase_ID相应的基因都是功能已知的或者克隆了的,我打死也不信。只能说,有人在某种程度研究过。有了数据库以后,可以非常方便的把这些基因调出来.SELECTOryzabase_ID,Gene_symbol_name,Gene_name,TitleFROM`reflist_14922`WHEREOryzabase_ref_id=38654结果:634d3, dwf3, D3/OsMAX2, Os_F0760Phylogenetic comparison of F-Box (FBX) gene superf...

2123apo1(t), apo1, SCM2, SCM2/APO1, OsFbox321, Os_F039...aberrant panicle organization 1, aberrant panicle ...Phylogenetic comparison of F-Box (FBX) gene superf...

8207SaF, OsFbox019, OsFbox19, Os_F0070Gs, F-box protein 19Phylogenetic comparison of F-Box (FBX) gene superf...

8823OsZTL1, OsFbox066, OsFbox66, Os_F0484F-box protein 66Phylogenetic comparison of F-Box (FBX) gene superf...这5082篇关于水稻基因的文章,你当然不可能每篇都去读,你关心的只是其中的部分文章,所以得选择合适的方法把自己感兴趣的那部分文章选出来。怎么选?那看看这个数据库的字段:

row_names:这个就不用了,这是把原始的表从R导入MySQL过程中产生的副产品。

Oryzabase_ID:这个比较重要,这个和基因数据库(genelist_14922)中的trait_gene_id是一致的。通过这个可以建立基因数据库和文献数据库间的联系.

Gene_symbol_name,这个也比较重要,比如我想获得所有关于抽穗期控制基因Hd1的文献,可以这样:

SELECT*FROM`reflist_14922`WHEREGene_symbol_nameLIKE"%hd1%"

这样会搜索出141行结果。关于这个基因最早的报道是1955年

Chandraratna, M.F.Genetics of photoperiod sensitivity in rice.J. Genet.53(2)215-223.1955那篇文章里估计Hd1的名字都不是Hd1.

由于有Journal这个字段,我们也可以看下,哪些期刊会报道水稻基因。

SELECTJournal,COUNT(DISTINCT(Oryzabase_ref_id))FROM`reflist_14922`GROUPBYjournalORDERBYCOUNT(DISTINCT(Oryzabase_ref_id))

共有501种期刊报道过关于水稻的基因,其中报道最多的是下面几个:Mol. Gen. Genet.39

Biosci. Biotechnol. Biochem.42

Molecular Genetics & Genomics (Molecular General G...45

Plant Cell Rep.46

Planta.46

J. Biol. Chem.47

PLoS ONE59

Euphytica64

Plant Sci.68

J. Exp. Bot.69

Gene89

Proc. Natl. Acad. Sci. U.S.A.132

Japan. J. Breed.163

Plant Cell Physiol.185

Plant Cell204

Plant J.212

Breeding Science258

Plant Mol. Biol.266

Theor. Appl. Genet.287

Plant Physiol.348

RGN394

.................................................

未完,待续

转载本文请联系原作者获取授权,同时请注明本文来自闫双勇科学网博客。

链接地址:http://blog.sciencenet.cn/blog-479743-832336.html

上一篇:利用MySQL库分析关于水稻基因的研究(一)

下一篇:利用MySQL库分析关于水稻基因的研究(三)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值