蛋白质数据的预处理笔记(1)
蛋白质结构PDB文件详细解释
蛋白质数据库Protein Data Bank(PDB)是一个包含蛋白质、核酸等生物大分子的结构数据的数据库,网址是http://www.rcsb.org。PDB可以经由网络免费访问,是结构生物学研究中的重要资源。为了确保PDB资料的完备与权威,各个主要的科学杂志、基金组织会要求科学家将自己的研究成果提交给PDB。PDB数据库存储结构数据的文件是PDB文件,每一个蛋白质或核酸都对应着一个编号,即PDB ID, 文件的扩展名为.pdb。PDB文件可以由各种3D 结构显示软件打开,比如pymol,Swiss-PDB viewer,VMD 等。
PDB文件里面的信息是有严格的格式的。各行数据, 如标识, 原子名, 原子序号, 残基名称, 残基序号等, 不仅要按照严格的顺序书写, 而且各项所占的空符串长度, 及其所处的各行的位置都是严格规定。今天小编就为大家介绍一下PDB文件中信息的格式。
ATOM 标准基因的原子坐标
- ATOM: 标准残基的原子. 记述标准残基(氨基酸以及核酸)中各原子的原子名称, 残基名称, 直角坐标(单位埃), 占有率, 温度因子等信息.
BENCHMARK5.5:
文件命名格式
基准结构文件的文件名格式由12个字符组成:
角色
1-4:复杂的Pdb代码*
5:' _ '
6:' l ' if配体,' r ' if受体
7:' _ '
8:' u '如果没有约束成分,' b '如果有约束成分
9-12:' .Pdb ' (文件扩展名)
比如:1A2K_l_b.pdb是指名称是1A2K的配体蛋白质,有约束成分
在PDB格式中出现的标准残基的名字:
残基类型 | 残基名字 |
---|---|
氨基酸 | ALA, ARG, ASN, ASP, CYS, GLN, GLU, GLY, HIS, ILE, LEU, LYS |
核酸 | A, C, G, T, U, I, +A, +C, +G, +T, +U, +I |
其他 | UNK(unknown) |
ATOM 1993 N GLN C 8 69.129 20.057 76.586 1.00 56.30 N
1993:原子序列号,N:原子名称,GLN:是残基的名称 C:链的表示符,8:残基序列号
X坐标、Y坐标、Z坐标 1.00:空间大小 56.30:温度因数 N:元素符号
-
一般来说,蛋白质的这些原子记录是从氨基到羧基来排列的
-
但对多聚糖而言是无序的。
-
核酸的残基是从5’ 端到 3’端排列的。
-
由于第7—11位存储原子的序列号,即一个MODEL/ENDMD模块中能够存储的最大原子数为99999,所以当一个记录中有多于99999个原子时,就需要多个MODEL/ENDMD模块,而这些模块中的原子序列号是连续的,并且关键字MODEL和ENDMDL必须显示,但一般情况下可以不写。
为了弄懂PDB,还是需要知道PDB文件数据格式详解 - 知乎 (zhihu.com)
PDB文件的处理
由于解析蛋白质结构时应该尽量保持蛋白质的天然状态,或者需要在特定的生理生化反应中解析蛋白质的瞬时结构,因此pdb数据库中很多蛋白的结构都与其他的蛋白同时出现。这里给大家推荐一个云计算网站,其对于pdb文件的处理小工具是免费给公众开放的,在保证了用户友好的按键设置的情况下,功能丝毫不弱于同类型的免费软件。
殷赋云计算工具网站:https://cloud.yinfotek.com/console/
用这个小工具处理pdb结构就十分简单明了,并且基本可以实现所有的pymol功能。可以去除大蛋白复合物的亚基、可以去除溶剂分子与水分子、还可以去除一些可能造成干扰的小分子
- pymol界面的介绍
不同版本的pymol界面可能略有不同,但是核心都是由两个部分组成。一个是写满文字的操作面板,有点类似于office办公软件的工具栏;另一个是可以显示图片的GUI图形界面,我们的图片就将显示在这个图形界面中
- file -> open:打开已经下载到本地的pdb文件
- fetch + 蛋白pdb编号直接获取
蛋白质的基础信息
20种氨基酸以肽键连接成肽链,有的蛋白质由多条肽链组成
蛋白质肽链可能存在的构象似乎是无穷无尽的, 事实上,肽链寻求的是能量最低的构象
蛋白质的天然构象不仅主要是肽链内部和肽链之间的相互作用, 很大程度上也取决于肽链和 水分子的相互作用, 应为蛋白质一般处于水环境中。 在水中, 蛋白质的非极性部分倾向于形 成非极性聚集体, 也就是疏水作用,在肽链序列上相隔较远的 氨基酸残基间的疏水作用力对维持和稳定蛋白质分子的构象具有重要影响 . 疏水作用的影响 使得蛋白质折叠模型具有一个疏水核。
蛋白质结构中原子得相互作用
- 共价相互作用
二硫键:两个硫原子之间形成得化学键,很强得化学键,可以将不同得肽链或同一个肽链得不同部分连接起来,对稳定蛋白质得构想起很大得作用
二硫键在胞外蛋白中决定胞外蛋白得机械性质。
二硫键在胞内蛋白中决定胞内蛋白得化学性质,通常胞内蛋白中得二硫键只和功能性相关。
- 非共价相互作用:范德华相互作用力、静电相互作用力、疏水相互作用力、氢键、盐键
蛋白质得空间结构主要由非共价相互作用维系得
范德华力在两个原子较远时为引力,较近时斥力
静电相互作用,因为分子不同类型得原子形成得共价键时成键原子分布不对称
氢键通过氢原子参与成键形成得,稳定蛋白质二级结构得主要因素。
疏水相互作用力维护蛋白质三级结构,由于非极性基团得存在
,因为分子不同类型得原子形成得共价键时成键原子分布不对称
氢键通过氢原子参与成键形成得,稳定蛋白质二级结构得主要因素。
疏水相互作用力维护蛋白质三级结构,由于非极性基团得存在
盐键一个氨基酸得氨基和空间相邻得氨基酸得羧基相互靠近形成