10万元奖金助力AI加速药物研发!小分子预测大赛来啦

人类与新型冠状病毒所引发的疫情(COVID-19)已战斗多日,针对病症是否有相应的特效药物也成为了公众关心的重点。同时,我们知道,药物研发过程是极为浩大,严谨的科学研究,例如目前正处于临床验证阶段的瑞德西韦,虽然已经经历了多年的研究,但仍需从临床上确定其对新冠病毒是否有疗效。

 

著名的医学期刊JAMA的一篇调查论文显示,研发一款癌症药物的成本在6.48亿美元左右[1]。其中,大量成本都会用于待选药物分子的测试实验上。虚拟筛选等计算技术可以缩小筛选对象集,降低制药成本,而机器学习技术的出现极大地辅助了计算机辅助药物设计的进步。因此,化学信息学或药物研发领域开始使用各种机器学习技术,包括SVM [3]、随机森林 [4]和深度学习 [5][6] ,以及图神经网络[7]等。不过,相关技术仍有提升空间,人工智能、化学和生物医学领域也在探索新的技术发现方法。

 

2020年2月,北京智源人工智能研究院、专注于AI驱动药物研发的科技企业晶泰科技 、数据评测平台biendata,共同发布了“智源小分子化合物性质预测挑战赛”,并同步开放了评测竞赛,总奖金10万元。本次比赛要求选手根据从小分子结构中提取的3177个维度特征,预测对于药物发现和开发有重要价值的六个化学性质。希望能发挥计算之所长,通过运用公开数据库或者文献数据与成果,助力加速药物发现,为尽早开发出治疗疾病的有效药物贡献一份力量。

 

智源小分子化合物性质预测挑战赛-赛址:

https://biendata.com/competition/molecule/

 

比赛背景

药物研发一直是一项要花费大量时间、人力和财力的工作。其中,大量成本都会用于待选药物分子的测试实验上。虚拟筛选等计算技术可以缩小筛选对象集,降低制药成本,但是需要消耗较多的计算资源。如何利用已有数据建立优质的机器学习模型,逼近真实结果,将为虚拟药物设计找到准确度和成本的平衡点。化学信息学和机器学习在药物研发中的应用已经有一定的历史,在最近以深度学习为前沿的AI潮流下,行业正在探索更广泛的人工智能技术在药物发现中的应用。

比赛任务

根据分子结构信息预测分子可能的化学性质,将在化学研究和制药领域产生重要应用。目前,大部分潜在药物都是小分子,如果能根据结构提前预测小分子的性质,将减少药物的研发成本。
 

本次比赛的任务是根据从小分子结构中提取的3177个维度特征,预测小分子的以下六个化学性质:

’Dipole Moment’,

’HOMO energy’,

’LUMO energy’,

’zero-point vibrational energy’,

’atomization energy at zero kelvin’,

‘atomization energy at room temperature’。

这六个性质的准确预测对于药物的发现和开发将提供重要价值。

 

数据描述

本次数据集来自GDB-17标准数据集,这是由1660亿个有机分子组成的小分子化学空间,由波恩大学提供[8]。该化学空间里面的所有分子包含的重原子(即C、S、O、N等原子)个数小于17个。此后,Raghunathan Ramakrishnan等人通过理论化学方法测算了其中133,885 个小分子的性质[9]。为了便于没有化学领域知识的选手参与比赛,本次比赛的联合主办方晶泰科技从小分子结构中提取出3177个相关的分子描述符和分子指纹,作为数据的输入特征。
 

训练集

训练集数据集为csv文件,数据包括80331个分子的信息。其中第一列为分子ID,第2列至3178列为分子的3177个分子描述符和分子指纹,作为数据的输入特征。第3179列至3184列是待预测的分子性质。
 

验证集

验证集和训练集格式类似,但是没有最后6列分子性质,需要选手预测。
 

测试集

测试集和验证集格式相同。测试集将于比赛结束前发布,选手需要在48小时内提交测试集的预测结果。测试集分数将最终决定比赛成绩。
 

样例提交文件

样例提交包括1列分子ID和6列待预测的分子性质。

 

参考文献

[1] Prasad, Vinay, and Sham Mailankody. “Research and developmentspending to bring a single cancer drug to market and revenues after approval.”JAMA internal medicine 177.11 (2017): 1569-1575.

[2] Lavecchia, Antonio. “Machine-learning approaches in drugdiscovery: methods and applications.” Drug discovery today 20.3 (2015):318-331.

[3] Burbidge, Robert, et al. “Drug design by machine learning:support vector machines for pharmaceutical data analysis.” Computers &chemistry 26.1 (2001): 5-14.

[4] Ballester PJ, Mitchell JBO. A machine learning approach topredicting protein-ligand binding affinity with applications to moleculardocking. Bioinformatics 2010, 26:1169–1175.

[5] Mitchell, John BO. “Machine learning methods inchemoinformatics.” Wiley Interdisciplinary Reviews: Computational MolecularScience 4.5 (2014): 468-481.

[6] Ekins, Sean. “The next era: deep learning in pharmaceuticalresearch.” Pharmaceutical research 33.11 (2016): 2594-2603.

[7] Liu, Ke, et al. “Chemi-Net: amolecular graph convolutional network for accurate drug property prediction.”International journal of molecular sciences 20.14 (2019): 3389.

[8] Ruddigkeit, L., van Deursen, R., Blum, L. C. &Reymond, J.-L. Enumeration of 166 billion organic small molecules in thechemical universe database GDB-17. J. Chem. Inf. Model. 52, 2864–2875 (2012).

[9] Ramakrishnan, Raghunathan, et al. “Quantum chemistrystructures and properties of 134 kilo molecules.” Scientific data 1 (2014):140022.


  

智源人工智能系列竞赛

 

2019 年 9 月,智源人工智能算法大赛正式启动。本次赛事由北京智源人工智能研究院主办,爱数智慧、清华大学、北京大学、中科院计算所、旷视、知乎、晶泰科技等协办,总奖金超过 100 万元,旨在以全球领先的科研数据集与算法竞赛为平台,选拔培育人工智能创新人才。

 

北京智源人工智能研究院院长、北京大学教授黄铁军介绍:智源的中心任务是在北京建成全球最优的人工智能创新生态,核心是选拔培育人工智能顶尖人才和发展潜力大的青年学术英才。研究院副院长刘江也表示:“我们希望不拘一格来支持人工智能真正的标志性突破,即使是本科生,如果真的是好苗子,我们也一定支持。”而人工智能大赛就是发现有潜力的年轻学者的重要途径。

 

本次智源人工智能算法大赛有两个重要的目的,一是通过发布数据集和数据竞赛的方式,推动基础研究的进展。特别是可以让计算机领域的学者参与到其它学科的基础科学研究中。二是可以通过比赛筛选、锻炼相关领域的人才。

晶泰科技

 

晶泰科技(XtalPi)是一家以计算驱动创新的药物研发科技公司,基于前沿计算物理、量子化学、人工智能与云计算技术,为全球创新药企提供智能化药物研发服务。我们希望通过提高药物研发关键环节的效率与成功率、降低研发成本,为患者带来更多优质的药物。晶泰科技创立于麻省理工学院(MIT)校园,核心团队由来自学术界、IT互联网界及医药产业界的优秀人才组成。晶泰科技已经成功为来自美国、欧洲、中国、日本的40余家先锋药企提供了药物研发服务。

目前正在角逐的比赛: 

  • 智源 — 小分子化合物性质预测挑战赛

  • https://www.biendata.com/competition/molecule/

  • 智源杯天文数据算法挑战赛

  • https://www.biendata.com/competition/astrodata2019/

  • 智源 — INSPEC 工业大数据质量预测赛 

  • https://www.biendata.com/competition/bosch/

  • 智源 — MagicSpeechNet 家庭场景中文语音数据集挑战赛

  • https://www.biendata.com/competition/magicdata/

  • 智源 — 高能对撞粒子分类挑战赛

  • https://www.biendata.com/competition/jet/

↓点击阅读原文前往报名

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值