论文解读+代码复现【AIDD】贝叶斯、决策树、随机森林+2种机器学习模型在癌症治疗药物发现中的应用

本文探讨了AI在药物发现和设计(AIDD)中的应用,强调了机器学习模型如决策树、随机森林在癌症治疗药物研发中的作用,特别是针对微管蛋白的抑制剂。研究发现,通过结构修饰,可以发现高效、低毒、高水溶性的药物,如茚并吡唑和吲唑类衍生物,这些化合物具有良好的抗肿瘤活性,能克服多药耐药性问题。论文还涵盖了化合物的合成路线和生物活性评价,为新药研发提供了新思路。
摘要由CSDN通过智能技术生成

AIDD(AI Drug Discovery & Design):是近年来非常火热的技术应用,且已经介入到新药设计到研发的大部分环节当中,为新药发现与开发带来了极大的助力。倾向于机器对数据库信息的自我学习,可以对数据进行提取和学习,一定程度上避免了化合物设计过程中的试错路径,同时还会带来很多全新的结构,为药物发现打破常规的结构壁垒。 覆盖了机器学习和深度学习,能与新药研发相结合并实质性的应用到靶点预测、高通量筛选、药物设计、药物的ADMET性质预测等;且算力方面,由早期应用于药物发现领域的决策树、随机向量机等机器学习模型,进展到深度神经网络、卷积神经网络、循环神经网络等深度学习算法。 具体到新药研发环节:如靶点识别,基于决策树来预测与疾病相关的基因,有研究者发现了多种EF在信号通路和胞外定位中的调控作用,并进一步基于靶点的结构和几何特征,选取一定量蛋白的数十个结合位点以及大量的非药物结合位点,构建随机森林分类器来预测药物靶点,并有研究者进一步采样提升了随机森林算法,成功的从非药物靶点中区分了药物靶点。

本期带领大家学习的是一篇在影响因子6.514《欧洲药物化学杂志》发表的论文--《基于配体和结构的潜在小分子发现靶向微管蛋白秋水仙碱位点用于癌症治疗的潜在小分子》。我们将从研究背景,设计思路,研究内容这三部分课题研究思路去将论文中所涉及的问题思考并学习。

ps~:文字部分是文章的具体内容,具体的机器学习代码复现过程在文章底部链接或者二维码中。该教学视频感谢“互动派<

以下是一个可以用于AIDD CADD分析回归的药物分子数据集的复杂代码示例,其使用了多个模型进行比较和交叉验证: ```python import pandas as pd from sklearn.model_selection import train_test_split, cross_val_score from sklearn.linear_model import LinearRegression, Ridge, Lasso from sklearn.tree import DecisionTreeRegressor from sklearn.ensemble import RandomForestRegressor from sklearn.metrics import mean_squared_error # 导入数据集 data = pd.read_csv('DrugMatrix.csv') # 选择特征和目标变量 features = ['MW', 'LogP', 'NumHDonors', 'NumHAcceptors'] target = 'Cmax' # 分割数据集为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(data[features], data[target], test_size=0.2, random_state=0) # 定义回归模型 models = [ LinearRegression(), Ridge(alpha=0.5), Lasso(alpha=0.5), DecisionTreeRegressor(), RandomForestRegressor(n_estimators=100) ] # 定义评估指标 scoring = 'neg_mean_squared_error' # 比较不同模型的性能 for model in models: scores = cross_val_score(model, X_train, y_train, cv=5, scoring=scoring) print(str(model)) print('Mean Squared Error:', scores.mean()) # 训练最佳模型并预测测试集 best_regressor = RandomForestRegressor(n_estimators=100) best_regressor.fit(X_train, y_train) predictions = best_regressor.predict(X_test) # 评估模型 mse = mean_squared_error(y_test, predictions) print('Mean Squared Error:', mse) ``` 该代码将数据集分为训练集和测试集,并使用线性回归、岭回归、Lasso回归、决策树回归和随机森林回归模型进行比较。使用交叉验证评估每个模型的性能,并选择随机森林回归作为最佳模型进行训练和预测。最后,使用均方误差评估模型的性能。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值