自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(72)
  • 收藏
  • 关注

原创 [回归指标]R2、PCC(Pearson’s r )

皮尔逊相关系数是研究变量之间线性相关程度的量,R方和PCC是不同的指标。R方衡量x和y的接近程度,PCC衡量的是x和y的变化趋势是否相同。然而,由于它将每个单独的数据点与整体平均值进行比较,所以 Pearson’s r 只考虑直线。我们通常可以将两个变量之间的关系描绘成一个点云,分散在一条线的两侧。点云的分散度越大,数据越「嘈杂」,关系越弱。然而,这些变量之间的关系很显然是非随机的。幸运的是,我们有不同的相关性方法。在上面的图中,Pearson’s r 并没有显示研究对象的相关性。

2024-02-29 22:27:41 1034

原创 [分类指标]准确率、精确率、召回率、F1值、ROC和AUC、MCC马修相关系数

准确率(Accuracy):正确分类的样本个数占总样本个数,精确率(Precision)(查准率):预测正确的正例数据占预测为正例数据的比例,召回率(Recall )(查全率):预测为正确的正例数据占实际为正例数据的比例,F1 值(F1 score): 调和平均值,准确率、精确率、召回率、F1 值主要用于分类场景。准确率可以理解为预测正确的概率,其缺陷在于:当正负样本比例非常不均衡时,占比大的类别会影响准确率。

2024-02-29 16:44:12 747

原创 [分子指纹]关于smile结构的理解

Q2改:C1C(C(C2C(C1)(C3C(CC2)(C4(C(=CC3)C5C(CC4)(CCC(C5)(C)C)C(=O)O)C)C)C)(C)C)O[C@@H]我的案例中有个奇怪的现象,我发现。

2024-02-27 03:47:13 198

原创 【shap】使用shap画图时colorbar颜色条不能正常显示

参考上面的帖子,是matplotlib版本问题,我原来的版本是3.5.0,降级回3.4.3就正常了。下面,我的shap值全是蓝色的,没有红色。(注:蓝色是负贡献,红色是正贡献)

2024-02-20 19:55:12 303

原创 模型超参数寻优

参考某篇QSAR的sci论文设置。

2024-02-18 22:20:16 245

原创 关于怎么监督机器学习训练的进度

许多机器学习框架(例如TensorFlow和Keras)支持回调函数,它们可以在训练的不同阶段执行特定的操作。例如,可以使用回调函数记录每个epoch的性能指标,保存模型的检查点,动态调整学习率等。不知道大家有没有我这种烦恼,运行机器学习模型的时候,一直在哪运行,也不知道啥时候会结束,等也不是,不等也不是,又着急想看到结果。许多机器学习框架会在训练过程中输出日志信息,其中包含每个epoch的损失、准确率等指标。这些信息可以帮助你了解模型的训练进度。有些框架提供了用于可视化训练进度的进度条工具。

2024-02-18 22:12:08 283 1

原创 模块、包、库的区别

这三者都是通过import和from…import…语句实现的。

2024-02-17 15:49:29 818

原创 随机数选取经验

【代码】随机数选取经验。

2024-01-06 23:39:13 363

原创 热图分析(这个热力图代表的是不同描述符与pIC50之间的皮尔逊相关系数。)

相关系数的值通过色阶上的颜色来表示:负相关系数通常用冷色(如蓝色或紫色)表示,正相关系数通常用暖色(如红色或粉色)表示,接近零的相关系数通常用中性色(如白色或灰色)表示。例如,在这个热力图中,"Infective-50"与pIC50之间有一个0.46的相关系数,这是一个较强的正相关,表明"Infective-50"高的时候,pIC50也高。综上所述,这个热力图提供了一种快速可视化不同描述符与pIC50之间关系强度和方向的方法,但是具体的分析和结论需要依据研究的背景和附加的统计测试来做进一步的验证。

2024-01-06 01:45:11 1178

原创 关于mpatches包缺失的案例

我查资料发现,mpathches是在mtplotlib包中,在一次案例中,报错缺少mpathches包。

2023-12-18 01:57:39 434

原创 conda和pip配置国内镜像源

中国科技大学: https://pypi.mirrors.ustc.edu.cn/simple/清华:https://pypi.tuna.tsinghua.edu.cn/simple。阿里云:https://mirrors.aliyun.com/pypi/simple/华中理工大学:https://pypi.hustunique.com/山东理工大学:https://pypi.sdutlinux.org/豆瓣:https://pypi.douban.com/simple/添加镜像源(永久添加)

2023-12-18 01:20:09 958

转载 GBDT算法原理以及实例理解

在分类树中最佳划分点的判别标准是熵或者基尼系数,都是用纯度来衡量的,但是在回归树中的样本标签是连续数值,所以再使用熵之类的指标不再合适,取而代之的是平方误差,它能很好的评判拟合程度。首先,GBDT使用的决策树是CART回归树,无论是处理回归问题还是二分类以及多分类,GBDT使用的决策树通通都是都是CART回归树。对于回归树算法来说最重要的是寻找最佳的划分点,那么回归树中的可划分点包含了所有特征的所有可取的值。为什么不用CART分类树呢?因为GBDT每次迭代要拟合的是梯度值,是连续值所以要用回归树。

2023-12-17 16:01:55 74

原创 xgboost机器学习算法通俗理解

通过这个例子,你可以更深入地理解 XGBoost 的原理:通过迭代训练多个决策树,每个决策树都试图纠正前面决策树的错误,最终将它们集成在一起,以获得更准确的预测结果。就像你在制作咖啡时,通过多次尝试和调整,最终得到了最好口味的咖啡一样,XGBoost 通过集成多个决策树的预测结果,得出了更准确的预测。通过这个例子,你可以理解 XGBoost 模型的原理:通过迭代训练多个决策树,每个决策树都试图纠正之前决策树的错误,最终将它们组合起来,以获得更准确的预测结果。想象一下,你正在准备一杯美味的咖啡。

2023-12-17 15:22:17 867

原创 使用jupyter notebook的便捷方法

但我们知道一个问题,pycharm中直接使用jupyter容易有些bug,但有些图,只有使用jupyter能出。2.anaconda里使用anaconda prompt,输入jupyter notebook + 路径。我的习惯是用Pycharm为主,jupyter为辅。1,先在pycharm里配环境,和各种包。

2023-12-16 13:36:41 367

转载 个人总结:机器学习分类模型评估指标 准确率、精确率、召回率、F1等以及关联规则支持度、置信度

也就是说,曲线上的每一个点代表着,在某一阈值下,模型将大于该阈值的结构判定为正样本,小于该阈值的结果判定为负样本,此时返回结果对应的真正率和假正率。A对B的提升度为:0.67/0.75 = 0.89 即以A作为前提,对B出现的概率有什么影响,如果提升度为1说明AB没有任何关联,如果小于1说明AB是互斥的,如果大于1,认为AB是有关联的,但在具体任务中认为提升度大于3才是值得认可的关联。理想的就是一个正方形。灵敏度求的是预测正确的正例与所有正例的比率,特异度求的是预测正确的负例与所有负例的比率。

2023-12-06 14:51:41 284

原创 关于支持向量机(SVM)的QSAR的结果的分析

图中的灰色部分代表了预测pIC50值与实测pIC50值之间的95%置信区间(confidence interval)。这个区间提供了一个预测误差的范围,意味着在统计上,我们有95%的把握认为真实值会落在这个区间内。具体来说,这个置信区间围绕着最佳拟合线(图中的虚线)而形成,显示了数据点在预测模型中的分散程度。简而言之,这个区间展示了模型预测的不确定性。

2023-12-06 12:26:33 442

原创 正则化的概念

在模型稀疏化时,L2只能降低每项特征的权重,而不能抹去,这时L1就可以使大部分模型参数为0,起到稀疏化的效果。再举一个理性的例子,点线(蓝色的···线)表示的是,在以圆圈表示的国家上训练的原始模型(没有正方形表示的国家),虚线(红色的—线)是我们在所有国家(圆圈和方形)上训练的第二个模型,实线是用与第一个模型相同的数据训练的模型,但是有一个正则化约束。说的再通俗点,就是模型的通用能力,训练的模型如果只能适用于某种特定的即为苛刻条件,那么这个模型可用的范围,所能承受的抗干扰性(术语叫做鲁棒性)就太差了…

2023-12-06 10:21:34 509

原创 10折交叉验证(10-fold Cross Validation)与留一法(Leave-One-Out)

这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10次交叉验证是最常用的。,就是把一个大的数据集分为 k kk 个小数据集,其中 k − 1 k-1k−1 个作为训练集,剩下的 1 11 个作为测试集,在训练和测试的时候依次选择训练集和它对应的测试集。,顾名思义,就是使 k 等于数据集中数据的个数,每次只使用一个作为测试集,剩下的全部作为训练集,这种方法得出的结果与训练整个测试集的期望值最为接近,但是成本过于庞大。这个问题可能是由于数据处理或代码逻辑上的错误导致的。

2023-12-05 16:13:19 2855 2

原创 关于随机数的设定和随机噪声

这里我们知道一点,如果只是发文章的话,可以挑取效果好的随机数,但是实际上我们要知道一点,如果模型受到随机数的影响较大,那只能说明模型不咋地。我们知道,加入随机数的目的,是让结果可重复性,可控。加入随机噪声的原因是提高鲁棒性,因为现实情况实际上是有噪声的(如实验测活的误差)。我们发现不加入随机噪声的情况,效果更差。

2023-12-04 05:52:34 413

原创 机器学习与药物筛选的心得体会

关于自变量的选择,最常用的就是分子描述符(2D or 3D),能够计算描述的软件很多,MOE,DS,还有免费的一大堆,想知道的可以看我之前发的帖子。都是拿个体系,做个模型,再做几个理论的验证,就把文章发表出去了。相对描述符而言,分子指纹代表的信息量更大,但分子指纹计算一般都牵涉到商业软件,很难去破解指纹具体的数字信息,这样就很难和免费的SVM或者KNN方法实现无缝衔接,我最近发现有个软件算出来的指纹,就是用位数代表指纹的(实数集)PaDEL-Descriptor,想用的可以去下载,很好用。

2023-11-23 14:27:16 475 1

原创 【分子指纹】化学分子指纹的概念和应用

分子指纹(Molecular fingerprints)可以低计算成本的方式表示大规模化学数据集中化合物的化学(结构、物理化学等)性质。它们在将化学数据集中的分子转换为适合于计算方法的一致输入格式(bit向量或数值)方面发挥着重要作用。在这篇综述中,

2023-11-23 01:23:20 1834

原创 生物活性分子库

有关小分子及其生物活性的信息来自几种核心药物化学期刊的全文文章,并与已批准的药物和临床开发候选药物的数据(如作用机制和治疗适应症)相结合。是一个公开的,可通过网络访问的测量结合亲和力的数据库,主要关注被认为是药物靶标的蛋白质与类似药物的小分子之间的相互作用。示例包括:政府机构,化学品供应商,期刊出版商等等。PubChem主要包含小分子,但也包含较大的分子,例如核苷酸,碳水化合物,脂质,肽和化学修饰的大分子。我们收集有关化学结构,标识符,化学和物理性质,生物活性,专利,健康,安全,毒性数据等许多信息。

2023-11-22 09:08:56 117

转载 【RDKit】化学指纹(fingerprint)

Rdkit|化学指纹(fingerprint)化学指纹(fingerprint)RDKit中还有许多其他类型的分子指纹可供选择,以下是其中几个常见的分子指纹类型:Morgan指纹(Circular fingerprints):基于分子的拓扑结构和半径参数生成的二进制指纹,可以用于描述分子的结构和相似性。MACCS指纹(MACCS keys):基于分子的结构和功能团片段生成的二进制指纹,可以用于进行药物相似性和虚拟筛选。

2023-11-19 01:15:20 548

原创 【数据预处理3】数据预处理 - 归一化和标准化

存款的数值跟其他数据不在一个数量级,这意味着存款的对择偶结果的影响比较大,但我们认为这三个特征同样重要,这时候就需要把这些规格不同的数据转换到同一规格。归一化是根据最大值和最小值来计算的,当最大值/最小值出现异常时,比如最大值跟其他数据差的非常多,那么这种计算方式就会存在较大的误差。这个过程,也叫数据预处理。实例化 MinMaxScaler 时,指定 feature_range 参数的值,可以设置归一的「范围」。feature_range=(0,1):(可选,默认0~1)指定归一化的范围,。

2023-11-18 20:56:32 95

原创 【数据预处理2】数据预处理——数据标准化

数据标准化1. 什么是标准化?数据标准化是一个常用的数据预处理操作,目的是将不同规格的数据转换到统一规格或不同分布的数据转换到某个特定范围,以减少规模、特征、分布差异等对模型的影响。这种操作也叫作无量纲化。除了用作模型计算。标准化的数据还具有直接计算并生成复合指标的意义,是加权指标的必要步骤。2. 为什么要将输入标准化?在以梯度和矩阵为核心的算法中,如逻辑回归,支持向量机和神经网络,数据标准化可以加快求解速度;

2023-11-18 20:52:09 546

转载 【机器学习算法】机器学习:支持向量机(SVM)

1.1,概念支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,可以将问题化为一个求解凸二次规划的问题。与逻辑回归和神经网络相比,支持向量机,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。具体来说就是在线性可分时,在原空间寻找两类样本的最优分类超平面。在线性不可分时,加入松弛变量并通过使用非线性映射将低维度输入空间的样本映射到高维度空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面。

2023-11-18 20:36:23 345 2

转载 【机器学习算法】分类算法之随机森林(Random Forest)

前言随机森林(Random Forest) 是Bagging(一种并行式的集成学习方法)的一个拓展体,它的基学习器固定为决策树,多棵树也就组成了森林,而“随机”则在于选择划分属性的随机,随机森林在训练基学习器时,也采用有放回采样的方式添加样本扰动,同时它还引入了一种属性扰动,即在基决策树的训练过程中,在选择划分属性时,Random Forest先从候选属性集中随机挑选出一个包含K个属性的子集,再从这个子集中选择最优划分属性,一般推荐K=log2(d)。

2023-11-18 19:25:37 1608

转载 【数据预处理1】数据预处理之数据缩放

最近在自学图灵教材《Python机器学习基础教程》,在csdn以博客的形式做些笔记。在监督学习中,有神经网络和SVM等算法对数据缩放十分敏感。通常做法是对特征进行调节,使数据表示更适合于这些算法。通常来说,这是对数据的一种简单的按特征的缩放和移动。常用缩放方法下图为数据缩放的几种方法:上图中,最左边的是有两个特征的二分类原始数据集。而又边的四幅图则为四种数据变换的方法。

2023-11-15 04:43:39 191

原创 【电脑系统】如果把其他盘的空闲的内存分给C盘(亲测最安全最方便的方法)

前提条件:同一个物理盘下的盘才可以相互分配空间。2.按下面1,2,3步骤分区,然后确定就行了。(注意分区过程中不要动电脑,以防出问题)分区助手这个软件巨好用。

2023-11-15 02:15:30 259

原创 【Pycharm】pycharm快捷键大全

还可以选择插入的字和源代码的扩展区域, 点击编辑器中的目标区域。3.5:您可以快速找到所有在整个项目中使用特定类,方法或变量的地方,方法是将脱字符按照符号名称或代码中的用法进行定位,然后按Alt + F7(在弹出式菜单中查找用法)。要在已打开的窗口中打开项目,请在“文件”菜单上选择“打开”,然后在“打开项目”对话框中选择“在当前窗口中打开”选项,然后选中“添加到当前打开的项目”复选框。3.12:要在任何视图(项目视图,结构视图或其他)中快速选择当前编辑的元素(类,文件,方法或字段),请按Alt + F1。

2023-11-13 00:02:22 818

原创 分享一个人工智能药物设计文档

很详细的介绍了各种模型的训练方法和解释。

2023-11-12 19:39:22 50

转载 在 Pycharm 里使用 Jupyter Notebook(详细版)

赞美Pycharm,并记录我踩过的所有坑只有 Pycharm 的 Professional 版才支持 Jupyter Notebook,请注意版本Pycharm的Professional版有官方学生免费:Free Educational Licenses - Community Support,在读书的同学请务必一试,亲测学信网下载个在读证明就行Pycharm有着丝般顺滑的代码补全功能,能大大提升效率,作为IDE的各种高级功能(比如变量预览,代码调试)也非常棒!

2023-11-12 04:45:08 3455 3

原创 自定义包的导入

在执行第3步时,首先要找到module程序所在的位置,其原理为:如 果需要导入的module的名字是m1,则解释器必须找到m1.py,它首先在当前目录查找,然后是在环境变量PYTHONPATH中查找。也就是说,如果当前目录下存在xml.py,那么执 行import xml时,导入的是当前目录下的module,而不是系统标准的xml。Python中的package定义很简单,其层次结构与程序所在目录的层次结构相同,这一点与Java类似,唯一不同的地方在于,python中的package必须包含一个。

2023-11-10 00:44:43 31

转载 【RDkit】SMILES标准化方法以及其中的一个坑(手性)

标准化之前:O=C(N[C@@H](C)C1=CC=C(C(O)=O)C=C1)C2=C(CC3=CC=C(OC(F)F)C(OC(F)F)=C3)SC4=C2CCOC4。其中重要的一个参数:“isomericSmiles”,它表示是否保存原始分子的手性,当时做分子生成的时候坑惨了,我说怎么生成的分子都是不带有手性的呢?"C@@H"和"C@H"这两种手性也是不一样的,以下两幅图的手性也是不同的,他们对应的化学反应可能也是不同的,"C@@H"和"C@H"区别以及和rdkit的标准化方法。

2023-11-08 04:39:29 580

原创 【RDKit】mol转smlie完整代码(亲测有效)

需要注意一点的是,文件目录和直接复制下来的,转折符需要换个方向。

2023-11-08 04:02:32 268

原创 【RDKit】关于RDKit安装问题,python兼容性问题(最后有RDKit的正确安装方法)

去rdkit-pypi官网(https://pypi.org/project/rdkit-pypi/#description)找到对应版本的。ImportError: DLL load failed while importing rdmolfiles: 找不到指定的程序。除非修改python版本到较低版本如python3.7或python3.6,使用下面两种方法都是安装的之前版本的rdkit,找到对应版本的支持python3.8的安装指令。

2023-11-08 03:04:04 1816 2

原创 【Pycharm】咋pycharm删除虚拟环境(主要是应对,不小心重新导入同一个环境,出现重复的环境文件)

如上情况虽然很烦人,但估计问题不大,实际上共同的环境(我也不确定,还是删除省事)2.选中左上角的减号(Remove Interpreter)3.操作完记得点ok,不然好像没用。1.往下拉,选中show all。

2023-11-07 14:37:30 1674

转载 【Pycharm】pycharm通过ssh连接远程服务器

由于想要使用pycharm连接Window子系统进行开发,找了很多教程都不够详细,花了点儿时间,最后配置成功。

2023-11-07 04:37:29 953

转载 【RDKit】利用RDKit实现有机分子SDF文件与SMILES的相互转换

SDF (Structure Data File)是常见的化学数据文件,SMILES (Simplified Molecular Input Line Entry Specification)是一种用ASCII字符串明确描述分子结构的规范。它们被广泛应用于计算化学,化学信息学等领域。本文将介绍如何使用化学信息学工具RDKit实现这两者的相互转化。

2023-11-07 04:15:58 626

原创 [Pycharm]创建一个新的虚拟环境(没有配置好各种包的环境)

tensorflow就是新环境的名字,可以命名 tensorflow 2.4.0等各种新的名字。后面python=3.6是指的 执行程序python版本。

2023-11-06 03:50:21 61

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除