关于生物信息学的理论知识(3)


ncbi编号说明

1)AC_:genomic mixed,一些可供选择的注释的基因组序列,主要用来标记病毒和原核生物;
2)AP_:protein mixed,AC_标记序列对应的蛋白产物;
3)NC_:genomic mixed,完整的基因组分子序列,标记的类别包括基因组、染色体、细胞器、质粒;
4)NG_:genomic mixed,不完整的基因组区域,提供NCBI基因组注释途径。比较有代表性有不转录的假基因或者哪些很难自行化注释的基因组簇;
5)NM_:mRNA mixed,转录组产物序列;成熟mRNA转录本序列;
6)NP_:protein mixed,蛋白产物;主要是全长转录氨基酸序列,但也有一些只有部分蛋白质的部分氨基酸序列;
7)NR_:RNA mixed,非编码的转录子序列,包括结构RNAs,假基因转子等;
8)NT_:genomic automated,BAC或者鸟枪测序法的还未完全注释的测序序列;
9)NW_:genomic automated,BAC或者鸟枪法测序的还未完全注释的测序序列;
10)NZ_ABCD1234:genomic automated,收集的各种利用鸟枪法测序的测序计划,ABCD代表的是计划名称;
11)XM_:mRNA automated,转录产物;mRNA来自基因组注释,序列相当于基因组重叠群;
12)XP_:protein automated,蛋白产物;序列相当于基因组重叠群;
13)XR:RNA automated,转录产物;非编码区来自基因组注释,序列相当于基因组重叠群;
14)YP_:protein mixed,蛋白产物;不涉及到转录组,主要用来标记细菌、病毒和线粒体;
15)ZP_:protein automated,蛋白产物;主要是用电脑自动注释;
16)NS_:genomic automated,未知生物分子基因组序列。
不同的编码代号代表不同的意思,如NM开头的表示标准序列,XM表示预测的蛋白编码
序列,NR表示非编码蛋白的mRNA序列,AF开头的表示克隆序列,BC开头的表示模板序
列
- The current format of a GenBank accession number is: [two-letter alphabetical prefix][six digits][.][version number]  
    GenBank入藏号的当前格式为:[两个字母的字母前缀][六位数字][][版本号]
- The format for older GenBank records is: [one-letter alphabetical prefix][five digits][.][version number]  
    较旧的GenBank记录的格式为:[一个字母的字母前缀][五位数字][][版本号]
    

ACCSEESION: 检索号

LOCUS: 名字

DEFITION: 简短的定义,标题

VERSION: 版本号

当一个序列发生了改变,它的检索号(Accession)不变,但会被赋予一个新的版本号。

KEYWORDS: 能够大致描述该条目的几个关键词可用于数据库搜索。

SOURCE: 基因序列所属物种的俗名。

ORGANISM: 对所属物种更详细的定义包括他的科学分类。

REFERENCE: 基因序列来源的科学文献(一条基因序列的不同片段可能来源于不同的文献)。文献具体分为作者、题目和刊物。刊物还包括PubMed ID作为其子条目

COMMENT: 自由撰写内容,比如致谢或者是无法归入前面几项的内容。

FEATURES:描述核酸序列中各个已确定的片段区域,包含很多子条目,比如来源(source),启动子(promoter)等。

Features的子条目需要具体参照例子来理解,

一些概念简答说

.fasta文件就是记录 >名字 /n 序列 一共两行
.fastq文件序列本身+质量参数一共四行
@+ID+描述序列 + 碱基质量字符对应序列
phyml或者mega软件构建系统发育树
igv线性可视化
微生信 气泡图
metaboanalyst 坐标系气泡图
一般直接fastq,fastq-dump过时了
sam二进制压缩后为bam
sam是两行 @+头,格式版本,排序 参考序列+序列名,序列参考长度 CIGAR值类似777777表示为6个7
SAMtools评价reads是否变异

三大核酸数据库,美国一个,欧洲一个,亚洲一个。

美国的 Genbank美国国家生物技术信息中心NCBI开发并负责维护。NCBI隶属于美国国立卫生研究院NIH。

欧洲核苷酸序列数据集ENA欧洲分子生物学研究室EMBL开发并负责维护。

亚洲的核酸数据库DDBJ由位于日本静冈的日本国立遗传学研究所NIG 开发并负责维护。

Genbank,EMBL与DDBJ共同构成国际核酸序列数据库合作联盟INSDC

  • 基因组数据库:GDB、GenBank、Ensembl
  • 核酸序列数据库:ENA(EMBL)、GenBank、DDBJ
  • 蛋白质序列数据库:PRINTS、PIR、PDB、MIPS

网站作用

生物信息学研究生应该精通一些常用的网站和数据库,以便进行数据获取、分析和可视化。除了你提到的NCBI、UCSC和TCGA,还有以下一些网站是值得掌握的:

  • Ensembl:一个综合的基因组数据库,提供了多种物种的基因组序列、注释、变异、表达、调控等信息,以及在线的浏览器和分析工具。
    https://zhuanlan.zhihu.com/p/303247762
  • UniProt:一个权威的蛋白质序列和功能数据库,收录了大量的蛋白质信息,包括结构、功能、相互作用、疾病相关性等,以及多种搜索和分析工具。
    https://www.zhihu.com/question/50904927?sort=created
  • STRING:一个蛋白质相互作用网络数据库,整合了多种来源的数据,包括实验验证、预测、文献挖掘等,可以在线构建和可视化蛋白质网络。
    https://bing.com/search?q=%E7%94%9F%E7%89%A9%E4%BF%A1%E6%81%AF%E5%AD%A6%E5%B8%B8%E7%94%A8%E7%BD%91%E7%AB%99&form=SKPBOT
  • GEO:一个基因表达数据仓库,收集了来自不同平台和技术的基因表达数据,包括微阵列、RNA-seq等,可以在线检索和下载数据,以及进行简单的分析。
    https://zhuanlan.zhihu.com/p/79626339
  • KEGG:一个代谢通路和生物功能数据库,提供了多种物种的代谢通路图谱、基因组注释、药物信息等,以及在线的通路分析工具。
    https://blog.csdn.net/qq_36170511/article/details/80630065
    简单来说就是dna序列信息(基因组)+转录因子信息=rna信息(转录组),转录组+翻译修饰定位信息=蛋白组。
  • 主成分分析(PCA)是一种常用的数据降维方法,它能够通过线性变换将数据转换到一个新的坐标系统,使得数据点在新坐标系下的投影具有最大的方差。通过PCA,我们可以减少数据的维数并保留最大方差贡献的特征。在PCA图中,样本聚集在一起表示它们的差异性较小,而样本之间距离越远,则表示它们的差异性越大。
  • 差异表达基因(DEGs)的鉴定通常结合统计显著性(p-value)和表达变化倍数(fold change,FC)来识别具有统计学意义且变化幅度较大的基因。在转录组、基因组、蛋白质组和代谢组等统计数据中,设置阈值P < 0.05和log2差异基因的FC > 1.5或 < -1.5,可以获取DEGs。使用R包(如DESeq2)处理数据以找出差异基因,并利用ggplot绘制火山图进行可视化。对差异基因的注释:使用GO和KEGG pathway进行注释。Gene Ontology(GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个本体(ontology),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是系统地分析基因功能、链接基因组信息和功能信息的数据库,包括代谢通路(pathway)数据库、分层分类数据库、基因数据库、基因组数据库]。KEGG pathway数据库是应用最广泛的代谢通路公共数据。使用R包在GO和KEGG数据库中查找相应的基因,并进行可视化。
  • 蛋白质-蛋白质相互作用分析(PPI)是研究生物体内蛋白质相互作用的重要方法。在生物体内,蛋白质的功能往往需要借助其他蛋白质的调节和介导。高度聚集的蛋白质可能具有相似的功能,连接度越大的蛋白质可能是维持系统平衡和稳定的关键。STRING数据库是一个常用的预测蛋白质-蛋白质相互作用的数据库,常用于蛋白质组学研究、疾病分子机制研究和新药靶点的发现。将DEGs输入STRING数据库,构建PPI网络,并利用Cytoscape进行可视化分析。
  • hub基因的挖掘:使用Cityscape中的MCODE插件,计算PPI网络图中每个节点的信息,并突出显示重要的模块。利用CytoHubba插件中MCC、DMNC、MNC、Degree和EPC五种算法交叉验证进一步筛选hub基因。对hub基因进行该数据集接受者操作特征(ROC)分析以评估hub基因的诊断价值。
  • 分子生物学的三大核心数据库是什么?它们各有何特点?
    GenBank核酸序列数据库;SWISS-PROT蛋白质序列数据库;PDB生物大分子结构数据库;
  • 分子生物学数据库有哪些类型?各有何特点?
    基因组数据库:基因组测序
    核酸序列数据库:核酸序列测定
    蛋白质序列数据库:蛋白质序列测定,生物大分子(蛋白质)
    三维结构数据库:X-衍射和核磁共振 特点:数量少,容量大,更新快
    二次数据库:上述四类数据库和文献资料为基础构建 特点:数量多,容量小,更新慢
  • 简述NCBI BLAST的功能和种类。
    序列相似性比对工具;
    对核酸:普通blastn,对高度相似序列megablast;
    对蛋白质:普通blastp,对保守域rpsblast;
    对人工翻译序列:核酸翻译序列对蛋白质序列blastx,蛋白质对翻译序列tblastn,核酸翻译序列对翻译序列tblastx;
    其它:基因组blast,基因表达序列搜索GEO blast,序列两两比对
  • 人类基因组计划中主要使用的哪些生物信息学手段
    单一测序结果判读;contig和chromosome拼接;识别基因区及其调控区;寻找基因相互作用的时空关系;

  • 16
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值