NCBI数据库实用教程
NCBI数据库简介
NCBI,全称为美国国家生物技术信息中心(National Center for Biotechnology Information),是美国国家卫生研究院(National Institutes of Health)于1988年成立的部门。NCBI成立目的是为了促进生物医学研究,通过收集、存储和提供生物医学信息来加速科学和健康进步。
NCBI收录全世界所有实验室测序过的核酸信息,包括宏大的“人类基因组计划”测序结果、小鼠等所有物种的测序信息。此外,NCBI还提供许多功能强大的数据检索与分析工具(Analyze模块)。NCBI数据库包含多个子数据库,如GenBank核酸序列数据库、PubMed、PudMed Central、PubReader、Gene等,这些子数据库各有特点,如GenBank核酸序列数据库是NCBI维护的最大的公开数据库,收录了来自全世界实验室测序的核酸信息;PubMed是一个提供生物医学方面的论文检索以及摘要,并且免费搜寻的数据库;Gene数据库则提供了关于基因组组装结构等信息。
在NCBI数据库中,可以找到大量的生物信息学数据,包括DNA和蛋白质序列,基因组组装,基因注释,蛋白质结构等。这些数据对于生物学家和医学研究者来说非常重要。同时,NCBI还提供了强大的数据分析工具,如BLAST和COBALT,可以帮助用户对大量数据进行快速准确的分析。
NCBI数据库使用方法
网址:https://www.ncbi.nlm.nih.gov/
1
查找CDS和蛋白序列
进入NCBI网站,选择 “Gene” ,在search框中输入感兴趣的基因的名称、基因ID或相关的生物物种,以 “P53” 为例。
点击 “search” 按钮,系统会显示与您的查询相关的数据库条目列表,选择对应的物种,以 “human” 为例。
点击对应物种基因名,系统会显示与您的查询相关的数据库条目列表。包括基因的Summary、Genomic context和Genomic regions, transcripts, and products等。
在基因相关信息页面,下拉找到 “NCBI Reference Sequences(RefSeq)” 条目,在 “mRNA and Protein(s)” 里可以看到有不同的转录本,其中mRNA一般是 “NM” 开头,非编码RNA一般以 “NR” 开头,还有一种 “XM” 开头是生物信息预测的转录本。“NP” 开头表示蛋白质, “NC” 开头表示基因。
找到想要的 “NM” 开头的转录本号和 “NP” 开头的蛋白号,点击进入,即可看到基因详细信息。
下滑找到 “CDS” ,点击,即可看到CDS序列,可以直接复制或者点击右下角 “FASTA” 再复制。
蛋白序列同理,下滑找到 “Protein” ,点击即可直接复制或者点击右下角 “FASTA” 再复制。
2
查找基因的启动子序列
进入NCBI网站,选择 “Gene” ,在search框中输入感兴趣的基因的名称、基因ID或相关的生物物种,以 “P53” 为例。
点击 “search” 按钮,系统会显示与您的查询相关的数据库条目列表,选择对应的物种,以 “human” 为例。
向下翻动页面,找到 “Genomic context” 条目,此时注意查看基因的方向,P53基因方向为反向。
向下翻动页面,找到 “Genomic regions, transcripts, and products” 条目,点击 “FASTA” 。
进入基因序列详情页,在右侧 “Selected region” 选项中把from7668421to7687490改为from7687491to7689491(启动子序列一般默认为基因上游2000bp,由于P53基因方向为反向,而NCBI默认的基因方向为正向,故选择在基因位置最大值上加2001,若基因方向为正向,则选择在基因位置最小值上减2001)。
点击 “Update View” ,所得序列即为P53基因启动子区域序列。
3
查找基因的5’UTR和3’UTR序列
进入NCBI网站,选择 “Gene” ,在search框中输入感兴趣的基因的名称、基因ID或相关的生物物种,以 “GAPDH” 为例。
点击 “search” 按钮,系统会显示与您的查询相关的数据库条目列表,选择对应的物种,以 “human” 为例。
向下翻动页面,找到 “Genomic regions, transcripts, and products” 条目,点击 “Tools” 。
选择 “Tools” 中的 “sequence text view” 选项,点击后能看到基因的序列信息。
显示出来的结果应该怎么看?(这里标记的颜色是网站自动给出来的。)
蓝色标记序列代表的是5’UTR或3’UTR。红色标记序列代表的是外显子,因为外显子要翻译成氨基酸,所以下面会给出对应的氨基酸序列。绿色标记序列代表的是内含子,内含子不翻译,所以下面没有氨基酸序列。若没有显示出来完整的5’UTR或3’UTR,可以点左上角的 “Prev page” 或 “Next page” 。
因此,GAPDH这个基因的5’UTR序列如下****:
GCTCTCTGCTCCTCCTGTTCGACAGTC
AGCCGCATCTTCTTTTGCGTCGCCAG
3’UTR序列如下**:**
GACCCCTGGACCACCAGCCCCAGCAAGAGCACAAGAGGAAGAGAGAGACCCTCACTGCTGGGGAGTCCCTGCCACACTCAGTCCCCCACCACACTGAATCTCCCCTCCTCACAGTTGCCATGTAGACCCCTTGAAGAGGGGAGGGGCCTAGGGAGCCGCACCTTGTCATGTACCATCAATAAAGTACCCTGTGCTCAACCA
最后
从时代发展的角度看,网络安全的知识是学不完的,而且以后要学的会更多,同学们要摆正心态,既然选择入门网络安全,就不能仅仅只是入门程度而已,能力越强机会才越多。
因为入门学习阶段知识点比较杂,所以我讲得比较笼统,大家如果有不懂的地方可以找我咨询,我保证知无不言言无不尽,需要相关资料也可以找我要,我的网盘里一大堆资料都在吃灰呢。
干货主要有:
①1000+CTF历届题库(主流和经典的应该都有了)
②CTF技术文档(最全中文版)
③项目源码(四五十个有趣且经典的练手项目及源码)
④ CTF大赛、web安全、渗透测试方面的视频(适合小白学习)
⑤ 网络安全学习路线图(告别不入流的学习)
⑥ CTF/渗透测试工具镜像文件大全
⑦ 2023密码学/隐身术/PWN技术手册大全
如果你对网络安全入门感兴趣,那么你需要的话可以点击这里👉网络安全重磅福利:入门&进阶全套282G学习资源包免费分享!
扫码领取
