- 博客(14)
- 收藏
- 关注
原创 【KMeans算法的局限性】
由于 K-Means 的质心是通过计算簇内样本特征的算术平均值来确定的,这个离群点凭借其巨大的数值,对质心产生了强烈的“拖拽”,结果是标记为灰色的质心被严重拉向右侧,偏离了簇内大多数非离群点的集中区域,这种偏差使其丧失了对红色簇真实特征的代表性,从而无法准确地总结该簇的特征意义。比如在二维空间中,每一个样本点到kmeans初始化的簇中心的距离都是一个圆中样本点到圆心的距离,如果你的数据分布并不是紧凑的各向同性的分布,而是椭圆形或者月牙形(PCA降至二维后的散点图形状),那么其实这个算法其实是低效的。
2025-11-26 17:35:29
862
原创 【基于kaggle开源数据集的kmeans分子聚类实战】
该笔记旨在将kmeans算法应用于实际应用,并进行结果分析。与多数笔记仅使用两种特征做演示不同,本笔记包含原始数据导入,数据分析清洗,数据标准化,肘部图及轮廓系数分析,pca降维可视化聚类结果,聚类结果分析。通过学习该笔记,可以大致了解KMeans聚类方法的用处,让它真正成为datascience的工具。本次使用的数据集是由近期发布的分子数据,每条分子包含了smiles,inchikey,original_inchi,以及rdkit生成的8条描述符,共计逾42万条数据。
2025-11-26 13:00:35
894
原创 【ChemSpider、NCI Chemical Identifier Resolver解决有机分子名称因不规范而无法获得cid的问题】
但是如果使用ChemSpider的filter_name功能,则能直接匹配到分子,这是因为不同数据库对分子名称的收集程度不同,显然就这个分子而言,ChemSpider涵盖了Pubchem没有的分子名称,所以他会返回一个smiles,当你想获得Pubchempy返回的全面分子属性时,可以再用这个smiles去pubchem匹配cid最终返回分子属性,如第三个单元格所示,pubchem成功使用smiles返回cid。在 PubChem 检索分子时,名称多来自文献或采购网站等渠道,质量参差不齐。
2025-11-11 16:47:38
657
原创 【从零开始学习sklearn——岭回归系数随正则化参数变化的关系】
对于共线性较强的数据,模型会选取较大的权重拟合线性关系,但是随着惩罚项逐渐占主导,权重过大会导致模型预测不准确,因此模型逐渐缩小权重,降低惩罚项对预测精度的影响,此时权重趋于合理,但是当惩罚项占主导时,模型的主要任务变为了如何缩小ω而不是拟合y,因此所有权重都被压向零,线性关系被抹平。
2025-11-09 16:32:43
1037
1
原创 【从零开始学习sklearn——岭回归】
下面用官方的实例,构建一个数据集展示高方差问题,仅采样两个数据点,反复为其添加高斯噪声,并重新拟合OLS和Ridge Regression,其中由于仅采样两个点,OLS出现大幅波动,而Ridge Regression由于惩罚项的存在而表现出更好的稳定性。可以看到由于仅含两个样本点,所以当添加噪声时,线性模型的预测数据发生了极大的改变,这点在大数据集中同样适用,如果没添加惩罚项那么当数据发生微扰时,线性模型将发生很大的偏差。Ridge指的是在模型训练过程中引入惩罚项目α||ω||
2025-11-09 00:16:42
281
原创 【基于Pytorch_Geometric从SMILES建立分子图molecular graph】
将邻接矩阵,节点特征矩阵,边特征矩阵输入到卷积神经网络中训练模型最终实现某些功能比如预测预测分子的xlogP。
2025-11-05 19:35:05
1513
原创 【MACCS、Morgan Fingerprint、Neural Molecular Fingerprint分子指纹】
本文介绍了MACCS、morgan MFP以及NMFP的相关概念,并使用代码演示了MACCS和MMFP从分子SMILES序列开始到最终分子指纹形成的具象化流程,最终介绍了神经分子指纹,其开创了从分子结构学习的研究范式
2025-11-04 18:51:33
921
原创 【从零开始学习sklearn——最小二乘法】
本文介绍了线性模型LinearRegression模型,通过不断迭代优化ω参数来缩小X和Y之间的误差
2025-11-03 23:12:28
876
原创 【有机分子SMILES是什么】
SMILES[2](简化分子线性输入系统的缩写)是一种线性表示法,用户可通过由字母、数字和字符组成的字符串来表征化学结构,明确原子组成、连接方式、键序和手性等信息,使计算机能够将其用于自然语言处理等相关任务[3]。SMILES 字符串由 ASCII 字符构成,可提供分子结构的文本化表达。例:paracetamol分子SMILES可表达为 CC(=O)Nc1ccc(O)cc1。
2025-11-03 12:31:34
296
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅