iLearnPlus(中文)

iLearnPlus:一个全面的自动化机器学习平台,用于核酸和蛋白质序列分析、预测和可视化。

简介

iLearnPlus是第一个具有图形和基于web的用户界面的机器学习平台,可以使用核酸和蛋白质序列构建自动机器学习管道进行计算分析和预测。iLearnPlus集成了21种机器学习算法(包括12种传统分类算法,2种集成学习框架和7种深度学习方法)和19种主要的序列编码方案(总共147个特征描述符),据我们所知,超过了目前所有用于生物序列分析的web服务器和独立工具。此外,iLearnPlus友好的GUI(图形用户界面)可供生物学家顺利进行分析,与现有管道相比,显著提高了效率和用户体验。iLearnPlus是一个用于学术目的的开源平台,可在GitHub - Superzchen/iLearnPlus: iLearnPlus is the first machine-learning platform with both graphical- and web-based user interface that enables the construction of automated machine-learning pipelines for computational analysis and predictions using nucleic acid and protein sequences.上获得。iLearnPlus- basic模块可在 iLearnPlus Web上在线访问。

方法

iLearnPlus提供iLearnPlus- basic、iLearnPlus- estimator、iLearnPlus- automl和iLearnPlus- loadmodel四大模块,供生物学家和生物信息学家进行可定制的基于序列的特征工程和分析、机器学习算法构建、性能评估、统计分析和数据可视化,无需额外编程。

运行环境

iLearnPlus是一个基于Python的开源工具包,可以在Python环境(Python版本3.6或以上)中运行,并可以在多个操作系统(如Windows, Mac和Linux)上运行。在安装和运行iLearnPlus之前,所有依赖项都应该安装在Python环境中,包括sys、os、re、PyQt5、qdarkstyle、numpy(1.18.5)、pandas(1.0.5)、threading、sip、datetime、platform、pickle、copy、scikit-learn(0.23.1)、math、scipy(1.5.0)、collections、itertools、torch(≥1.3.1)、lightgbm(2.3.1)、xgboost(1.0.2)、matplotlib(3.1.1)、seaborn、joblib、warnings、random、multiprocessing和time。为了方便起见,我们强烈建议用户在您的本地计算机上安装Anaconda Python环境。该软件可从Anaconda | The World's Most Popular Data Science Platform免费下载。

安装

方法1

步骤1. 下载并安装anaconda平台。 
下载网址:https://www.anaconda.com/products/individual

步骤2. 安装PyTorch:
PyTorch安装请参考https://pytorch.org/get-started/locally/。

步骤3. 通过pip3安装iLearnPlus:
安装ilearnplus

步骤4. iLearnPlus运行:

  >>> from ilearnplus import runiLearnPlus
  >>> runiLearnPlus()

方法2

下载iLearnPlus by

  git clone https://github.com/Superzchen/iLearnPlus

步骤1. 下载并安装anaconda平台。
下载网址:https://www.anaconda.com/products/individual

步骤2. 安装PyTorch:
PyTorch安装请参考https://pytorch.org/get-started/locally/。

步骤3. 安装lightgbm, xgboost和qdarkstyle:

  pip3 install lightgbm
  pip3 install xgboost
  pip3 install qdarkstyle  

步骤4. 运行iLearnPlus: cd到包含iLearnPlus.py的iLearnPlus文件夹,然后运行' iLearnPlus.py '脚本,如下所示:

  python iLearnPlus.py

使用指南:

详细使用方法请参考iLearnPlus手册。

iLearnPlus接口:

iLearnPlus主界面:
iLearnPlus-Basic模块接口:
iLearnPlus-Basic模块使用输入蛋白质/RNA/DNA序列(序列描述符)的选择基于特征的表示和选择的机器学习分类器进行分析和预测。该模块在询问使用不同序列特征描述符和机器学习算法对预测性能的影响时特别有用。

iLearnPlus-Estimator模块接口:
iLearnPlus-Estimator模块允许用户选择多个特征描述符,从而提供了一种灵活的方法来执行特征提取。

iLearnPlus-AutoML模块接口:
iLearnPlus-AutoML模块专注于在不同的机器学习分类器上应用于相同或组合的特征描述符集上的自动基准测试和预测性能最大化。

iLearnPlus-LoadModel模块接口:
iLearnPlus-LoadModel模块允许用户上传、部署和测试他们的模型。

数据可视化:
应用实例
赖氨酸巴豆酰化位点的鉴定
使用iLearnPlus-Estimator模块估计多个特征描述符的性能

这里,使用iLearnPlus-Estimator模块来比较评估不同特征集的性能。我们使用独立GUI版本中的iLearnPlus-Estimator模块加载数据,生成7个特征集(AAC、EAAC、EGAAC、DDE、binary、ZScale和BLOSUM),并选择机器学习算法随机森林算法(默认设置为1000棵树),通过10倍交叉验证构建分类器。分析表明,利用EGAAC特征描述子构建的模型获得了最佳的性能。

利用iLearnPlus-AutoML模块对多个ML算法进行性能评估

然后,iLearnPlus-AutoML模块比较评估了7种机器学习算法:SGD, LR, XGBoost, LightGBM, RF, MLP和CNN的预测性能。我们使用自举检验来评估这些算法产生的ROC曲线之间差异的统计学意义。

结果表明,在7种机器学习算法中,深度学习模型CNN的预测性能最好,Acc=85.4%, AUC=0.823。

数据集下载

赖氨酸巴冬氨酸化数据集可在此处下载。

iLearnPlus可以简单直接地设计和优化机器学习管道,以实现有竞争力的(如果不是最好的)预测性能。

引用
如果你觉得iLearnPlus有用,请引用以下论文:

Zhen Chen, Pei Zhao, Fuyi Li, André Leier, Tatiana T Marquez-Lago, Yanan Wang, Geoffrey I Webb, A Ian Smith, Roger J Daly, Kuo-Chen Chou, Jiangning Song*, iFeature: a Python package and web server for features extraction and selection from protein and peptide sequences. Bioinformatics, 2018, 34(14): 2499–2502. iFeature: a Python package and web server for features extraction and selection from protein and peptide sequences | Bioinformatics | Oxford Academic

Zhen Chen, Pei Zhao, Fuyi Li, Tatiana T Marquez-Lago, André Leier, Jerico Revote, Yan Zhu, David R Powell, Tatsuya Akutsu, Geoffrey I Webb, Kuo-Chen Chou, A Ian Smith, Roger J Daly, Jian Li, Jiangning Song*, iLearn: an integrated platform and meta-learner for feature engineering, machine-learning analysis and modeling of DNA, RNA and protein sequence data. Briefings in Bioinformatics, 2020, 21(3): 1047–1057. iLearn: an integrated platform and meta-learner for feature engineering, machine-learning analysis and modeling of DNA, RNA and protein sequence data | Briefings in Bioinformatics | Oxford Academic

Zhen Chen, Pei Zhao, Chen Li, Fuyi Li, Dongxu Xiang, Yong-Zi Chen, Tatsuya Akutsu, Roger J Daly, Geoffrey I Webb, Quanzhi Zhao, Lukasz Kurgan, Jiangning Song*, iLearnPlus: a comprehensive and automated machine-learning platform for nucleic acid and protein sequence analysis, prediction and visualization. Nucleic Acids Research , 2021;, gkab122, iLearnPlus: a comprehensive and automated machine-learning platform for nucleic acid and protein sequence analysis, prediction and visualization | Nucleic Acids Research | Oxford Academic

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值