零基础入门AI(机器学习)竞赛-baseline暑期夏令营

小白零基础 5 分钟速通指南

第一步:报名赛事

赛事链接:2024 iFLYTEK AI开发者大赛-讯飞开放平台

第二步:五分钟体验一站式baseline

项目链接:https://aistudio.baidu.com/projectdetail/8094146?sUid=4890304&shared=1&ts=1719315147213

PS:建议使用 edge、chrome 等浏览器,safari 浏览器可能无法下载文件

  • 登录百度账号

  • 运行项目

  • 如果是新用户,需要完善信息

  • 启动环境

  • 运行全部Cell 

第三步:提交文件,拿下第一个分数!

使用刚刚下载的 submit.csv 文件进行提交!拿下第一个分数!

  • 新用户需先完成实名认证

赛题深入解析

赛题背景

  • 强调了人工智能在科研领域,特别是在化学和药物研发中的重要性。

  • 指出了PROTACs技术在靶向降解目标蛋白质方面的潜力。

赛题任务

  • 要求选手使用提供的demo数据集,这个数据集包含了多个与PROTACs降解能力相关的字段。

  • 允许选手通过数据增强或自行搜集数据来扩充数据集,并自行划分数据集用于训练和验证模型。

赛题提供的数据比较有限,仅有几百条,如果能搜索出合适的数据扩充数据集将会是很大的提升,当然数据的搜索也是非常困难的。

数据字段理解

赛题介绍部分并没有给出关于数据字段的具体介绍,所以这里对每个数据字段进行解释:

  • 数据集包含了多个字段,如uuid(唯一标识符)、Label(降解能力的标签,0表示降解能力较差,1表示降解能力好)、UniprotTargetE3 ligasePDB等,这些都是与PROTACs分子相关的信息。

  • 还包括了降解能力相关的数值指标,如DC50(半数降解浓度)、Dmax(最大降解效率)、IC50(半抑制浓度)、EC50(半有效浓度)等。

  • 还包括了与分子物理化学性质相关的字段,如Molecular Weight(分子量)、Exact Mass(精确质量)、XLogP3(预测的脂水分配系数)等。

具体说明如下:

其中将对Smiles、Assay (DC50/Dmax)、Assay (Protac to Target, IC50)、Assay (Cellular activities, IC5、Article DOI、InChI展开介绍。

最后,描述了与细胞活性相关的参数,包括:

  • UUID: 一个唯一的标识符,用于识别数据记录。

  • Label: 可能指的是化合物或数据集的标签或名称。

  • Uniprot: 一个蛋白质数据库,提供关于蛋白质序列、结构和功能的信息。

  • Target: 目标蛋白,即PROTACs设计来降解的特定蛋白质。

  • E3 ligase: E3连接酶,一种在泛素化过程中扮演角色的酶,帮助标记蛋白质以供降解。

  • PDB: 蛋白质数据银行,一个包含蛋白质和核酸结构的数据库。

  • Name: 化合物的名称。

  • Smiles: 一种表示分子结构的字符串格式。

  • DC50 (nM): 半最大降解浓度,即达到最大降解效果一半时的化合物浓度。

  • Dmax (%): 最大降解效率,表示化合物能实现的最大降解效果的百分比。

  • Assay: 实验方法,这里可能指的是用于测定DC50、Dmax等的实验。

  • Percent degradation: 分子降解的百分比。

  • IC50 (nM, Protac to Target): 半最大抑制浓度,针对PROTACs与其目标蛋白的复合物。

  • EC50 (nM, Protac to Target): 半最大有效浓度,即达到一半最大生物效应的浓度。

  • Kd (nM, Protac to Target): 解离常数,表示PROTACs与其目标蛋白复合物的结合强度。

  • Ki (nM, Protac to Target): 抑制常数,用于描述抑制剂与酶的结合强度。

  • delta G, delta H, -T*delta S: 分别表示结合反应的吉布斯自由能变化、焓变和熵变,这些热力学参数用于描述分子间相互作用的能量状态。

  • kon, koff: 分别表示分子结合和解离的速率常数。

  • t1/2 (s, Protac to Target): 半衰期,即分子浓度减少到初始浓度一半所需的时间。

  • Assay (Protac to Target, kon/koff/t1/2): 可能是指测定结合和解离速率常数以及半衰期的实验方法。

  • IC50, EC50, Kd, Ki: 与三元复合物相关的参数,与前面提到的类似,但这里特指三元复合物。

  • delta G, delta H, -T*delta S: 描述三元复合物的热力学参数。

  • kon, koff, t1/2: 描述三元复合物的动力学参数。

  • IC50, EC50, GI50, ED50, GR50: 这些参数描述了化合物在细胞水平上的活性,如半最大抑制浓度、半最大效应浓度等。

  • PAMPA Papp: 一种评估药物分子在仿生膜上的通透性的方法。

  • Caco-2 A2B/B2A Papp: 使用Caco-2细胞系评估药物分子的肠道吸收能力。

  • Article DOI: 文章的数字对象标识符,用于唯一标识科学文献。

  • Molecular Weight, Exact Mass: 分子量和精确质量。

  • XLogP3: 预测的辛醇/水分配系数,用于预测脂溶性。

  • Heavy Atom Count, Ring Count: 重原子数和环的数量。

  • Hydrogen Bond Acceptor/Donor Count: 氢键受体/供体计数。

  • Rotatable Bond Count: 可旋转键的数量。

  • Topological Polar Surface Area: 拓扑极性表面积。

  • Molecular Formula, InChI, InChI Key: 分子式、国际化学标识符及其密钥。

  • IC50, EC50, GI50, ED50, GR50: 这些参数描述了化合物在细胞水平上的活性,如半最大抑制浓度、半最大效应浓度等。

  • PAMPA Papp: 一种评估药物分子在仿生膜上的通透性的方法。

  • Caco-2 A2B/B2A Papp: 使用Caco-2细胞系评估药物分子的肠道吸收能力。

  • Article DOI: 文章的数字对象标识符,用于唯一标识科学文献。

  • Molecular Weight, Exact Mass: 分子量和精确质量。

  • XLogP3: 预测的辛醇/水分配系数,用于预测脂溶性。

  • Heavy Atom Count, Ring Count: 重原子数和环的数量。

  • Hydrogen Bond Acceptor/Donor Count: 氢键受体/供体计数。

  • Rotatable Bond Count: 可旋转键的数量。

  • Topological Polar Surface Area: 拓扑极性表面积。

  • Molecular Formula, InChI, InChI Key: 分子式、国际化学标识符及其密钥。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值