根据蛋白质序列,计算其分子量(molecular weight),在线工具,原理和python代码

蛋白质分子量

蛋白质是由许多氨基酸残基通过肽键(一个氨基酸的 α-羧基与另一个氨基酸的 α-氨基脱水缩合形成的化学键)连接而成。蛋白质的分子量(molecular weight)为各个氨基酸的分子量之和,是蛋白质的重要理化参数。单位为Dalton(道尔顿,缩写Da,或D),定义为碳12原子质量的1/121D=1/N gN为阿弗加德罗常数。通常,我们可以使用氨基酸残基数*110大概计算蛋白质的分子量。

目录

一、四个蛋白质分子量计算网站

1)UniProt数据库

2)Expasy

3)EMBOSS

4)PIR

二、python代码版

1)     Biopython包

2)python代码从头计算

附1:Average vs monoisoform

附2:氨基酸分子量表格

一、四个蛋白质分子量计算网站

1)UniProt数据库

打开https://www.uniprot.org,在输入框输入“P05130”,然后点击“Search”按钮。

点击结果页面左侧的“Sequence & Isoform”,链接到序列处。此处有长度679,质量77,695 Da。粗略等于679*110

点击“Download”下载序列备用。

如果仅有几条蛋白质,并且有对应的UniProtKB id,建议直接检索获得结果。

如果有N条蛋白质,并且有对应的UniProtKB id,可以使用UniProtidmapping工具检索,批量下载结果,然后进行解析以获得分子量。

2Expasy

打开Expasy - ProtParam tool,在上面的输入框中输入蛋白质id或者序列id,例如P05130或者KPC1_DROME;或者在下面的输入框中输入蛋白质单字母序列。

点击“compute parameters”提交,弹出来参数,全部默认,点击“Submit”按钮。

分子量就计算出来了。

也可以输入我们在UniProt上获得的序列(这里仅序列)计算蛋白质分子量。略,请大家自行尝试。

3)EMBOSS

打开https://www.ebi.ac.uk/Tools/seqstats/emboss_pepstats/,在输入框中输入在UniProtKB上获得的序列(fasta格式),点击“Submit”按钮提交。

经过约10秒后,会返回结果。

也可以一次性提交N条序列(fasta格式)。略,请大家自行尝试。

4PIR

打开Composition/Molecular Weight Calculation [PIR - Protein Information Resource],在上面的输入框输入UniProtid或者在下面的输入框中输入在UniProt上获得的序列,点击“Submit”按钮。

1秒后返回结果。红框中为计算所用的公式和每个氨基酸的分子量(带水分子的分子量)。

也可以一次性提交N条序列(换行分割)。略,请大家自行尝试。

总结:

工具

输入

批量

新序列

速度

批量结果

Uniprot

UniProtKB id

Yes

NO

下载后解析

Expasy

UniProtKB id/sequence

NO

Yes

EMBOSS

sequence

Yes

Yes

解析网页

PIR

UniProtKB id/sequence

Yes

Yes

解析网页

二、python代码版

  1. Biopython

2python代码从头计算

虽然Biopython 3行代码就可以搞定蛋白质分子量计算,但是我们需要知道计算原理。最重要的就是获得氨基酸对应的分子量表格。

代码解释:

输入1:单字母的氨基酸序列

输入2:每个氨基酸对应的分子量表格

原理:根据每个氨基酸对应的分子量表格,将所有字母对应的分子量数值加起来,然后再加上水分子的分子量,就是最终的分子量。

注意:这里的分子量是不带水分子的,如果你用的表格是带水分子的,需要用PIR结果中的计算公式。

总结:

1)网站上使用的基本都是平均质量。

2)使用上述6种方法计算出来的P05130的分子量基本一样,小数点细微差别可能是由于精度不同或者使用的分子量表格(见附2)不同。

工具

P05130分子质量

UniProt

77695

Expasy

77694.95

EMBOSS

77694.95

PIR

77694.42

Biopython-IUPAC

77694.0959

Python-Expasy

77694.94634

1Average vs monoisoform

蛋白质/化合物的平均质量(average mass,红线处),是由其组成的元素质量的加和,每种元素的质量选取所有同位素的平均质量。

蛋白质/化合物的单同位素质量(monoisoform,最高峰处),是由其组成元素质量的加和,每种元素质量选择其最大丰度同位素的质量。

绝大多数情况下,平均质量>单同位素质量(见附2)。

2:氨基酸分子量表格

参考:

[1] molecular_weight in SeqUtils · Issue #3859 · biopython/biopython · GitHub

[2] X.molecular_weight() · Issue #4002 · biopython/biopython · GitHub

[3] https://en.wikipedia.org/wiki/Proteinogenic_amino_acid#Mass_spectrometry

[4] Expasy - FindMod tool

微生信助力高分文章,用户175000+,谷歌学术3200

Since 6.0.0 6.6.0 + 增加由精确分子量搜索分子式小工具(在“工具”菜单中选择) * 改进最简式结果,现在总是把碳(C)元素放在最前,其余原子按原子序数排列 * 界面上一些细节的改进 - 为适应 Window 7 及后续版本,本程序最小化后不再在任务栏隐藏,直接点击主窗口上的关闭按钮将直接退出程序 - 去掉了精简模式窗口 - 去掉了窗口“总在前面”选项 6.5.0 + 内置所有天然同位素精确质量,用户指定某种同位素的质量数时,如果恰好是天然同位素,则用内置的精确同位素质量代替用户输入的质量数(仅当原子量使用“精确值”或“最高丰度精确值”时有效)。比如如果输入{13C},则使用原子量13.0034(之前的版本直接使用13.0000) + 内置一个计算不饱度的小工具工具-->计算不饱度) + 增加一个独立运行的分子式格式化工具,可以将剪贴板中的文字按一般分子式的要求将数字变成上下标 * 用户指定某种同位素时,可以不指定质量数,程序将根据“使用原子量”选项选用最高丰度的同位素的精确质量或者质量数进行计算。比如输入{H},程序将选用原子量1.0078进行计算(之前的版本将报错) * 改进了最简式结果,现在总是把碳(C)元素放在最前,氧(O)元素放在最后,更符合一般人的阅读习惯 * 大量程序界面细节的改进,现在可以在各种列表表格中正常显示分子式,不再需要安装任何字体文件,速度也更快 * 批量计算部分重写,现在这个功能有了界面 * 主菜单上一些功能增加了快捷键,程序中个别快捷键修改 * 程序全面支持UNICODE - RTF格式历史记录合并到“历史记录”中,原RTF格式历史记录选项不再有效 - 修正一个前端显示时主窗口可能遮住对话窗口的BUG 6.4.1 + 增加批量计算功能,在“工具”菜单中,一些过长的分子式可以从文件中导入防止显示速度过慢 - 修正一处同位素质量数显示问题 - 修正统计基团时潜在的问题 * 改进历史记录存盘文件样式 6.4.0 + 增加一个选项,可以选择不即时给出结果,以加快输入速度 - 修正在输入很长分子式时光标移出输入框的问题 * 改写内核,大幅提高大小写自动判断速度,尤其含有大量缩写时 * 改写内核,提高计算速度 * 将氨基酸缩写改为更简洁形式,提高计算速度 * 一些细节的优化,提高效率 6.3.0 + 缩写设定中缩写值首字母为"_"(英文下划线)时将忽略此项 + 默认设定下加入20种氨基酸残基的缩写(每种去掉一分子水) - 修正某对话框中的错别字 - 修正缩写设定对话框中不能输入"="的问题 - 修正缩写设定中缩写为空时造成的程序错误 - 修正安装后在C盘根目录下留下CHEM_4.TTF文件的问题 - 修正卸载后不能删除快速启动栏快捷方式的问题 * 增强监视剪贴板的兼容性:自动忽略复制到剪贴板中的分子式中前后的空格 * 缩写设定对话框原子量设定对话框中按ESC可以直接关闭 6.2.2 - 修正某些情况下重复运行程序窗口不能弹出的问题 - 修正有时程序退出时会弹出调试对话框的问题 6.2.1: - 修正窗口隐藏时检测到剪贴板变化不能弹出的问题 6.2.0: + 增加两个选项:是否启用历史记录功能,如果禁用,可以加快计算速度,默认开启 + 增加设置窗口的快捷键为F10 + 自定义原子量窗口增加快速功能 + 增加展开缩写的功能,在编辑菜单中 - 修正输入分子式长度有限制的bug * 程序界面细小改进:在关于窗口点击版本号弹出ChangeLog * 程序细节的改进 6.1.1: + 增加分子量计算器主页 - 修正分子式括号中角标显示不正确的问题 * 程序细节的改进 6.1.0: + 增加一套最大丰度同位素精确原子量表 - 修正“质量数”原子量表为丰度最大同位素质量数 - 修正RTF历史窗口一处显示的问题 - 修正程序启动时不能装入原子量选项的bug * 改进了核心代码,提高效率 * 程序细节的改进 6.0.0: + 新增支持计算化学式中某些特定的基团的质量分数 + 自动保存用户设置在INI文件中 + 保存历史记录支持纯文本以及RTF两种格式 + 将元素统计结果复制到剪贴板时将有更多选择 + 简易模式窗口可以自动隐藏 - 彻底解决了当化学式中存在缩写基团时可能会发生的问题 * 程序启动时自动判断是否安装“Chemistry Numbers”字体以采取不同的显示策略,在没有字体的情
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值