基于ChEMBL数据库的文本分类器

摘要:某些科学家和将大数据提取整理到公共数据库这一过程都需要对文本进行数据挖掘,科学出版物的大量发行则要求可以实现半自动和全自动文本挖掘。作者开发了一种文档分类器,可以成功区分“类化学物” (即与小分子药物发现相关且可能包含定量生物活性数据的出版物)和“非类化学物”。

基于ChEMBL数据库的文本分类器

refJournal of Cheminformatics 2014, 6:40IF=3.893

链接: http://www.jcheminf.com/content/6/1/40.

ChEMBL数据库存储了大量化合物结构、生物靶标生物活性数据以及药物类药分子的分子性质数据人工提取了原始文献中实验结果,并进行了整理和集成,保证了数据的一致性和数据质量。基于ChEMBL数据库来源,作者用Pipeline Pilot构建了分档分类算法,使用朴素贝叶斯(Naïve BayesianNB)随机森林(Random ForestRF)算法,对文献中的标题和摘要做了文本分类,用于快速提取类化学物数据,从大量文献数据中提取关键的文献进行研究。算法毒理基因组学中获得验证。

 数据处理和模型构建流程

 

 

图二 Pipeline Pilot模型评价结果

MaXFlow生物医药智能创新平台,由创腾科技自主研发,旨为不同领域的一线创新科技工作者提供一个合作共享的B-S架构平台。以“数据自由,模型自由”为理念,在结构模型与预测模型进行融合的基础上,实现模拟与AI需求的合并,为研发赋能。

  • 填补数据产生保存与数据使用赋能断层
  • 打通空间结构模型与数据预测模型壁垒
  • 合并经典模拟计算与新兴AI预测需求
  • 降低背景知识储备与复杂软件使用门槛

通过便捷的网页端操作,可实现大、小分子模型的构建与优化,动力学模拟,分子对接,分子间相互作用展示。小分子药物方面,通过分子性质计算以及多种机器学习与深度学习的方法,在工作流中帮助用户实现数据的挖掘以及相关构效关系的搭建,同时可以通过一键部署的方式实现药代动力学及不同目的的AI预测与共享。对于大分子,基于流行AI模型的运用,更加准确的实现大分子间相互作用预测。多样的APPs为大分子药物研发提供可靠保障。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值