随便叫点什么……-CSDN博客

最近在做关于小分子筛选的项目，涉及到一些处理方式，后面会逐篇总结遇到的一些问题及解决方法。首先简单介绍一下RDkit，RDkit是一款用来处理化学小分子的python开源包，最早是由诺华公司开发的，底层是由C++编写的。在github上有它的源码和说明书，地址如下：https://github.com/rdkit/rdkithttps://github.com/rdkit/rdkitRDkit在Anaconda或miniconda环境中的安装：c...

2022-05-19 15:24:39 4186 3

原创在没有spark集群的条件下，pandas处理上亿行数据的过程探索

nlp萌新，最近在尝试一个AIDD的项目，期间遇到了一个有趣的问题，当把从zinc，enamine，ChemBL，CDDI等库中收集到的数据合并到一起后，是一个60多G的txt文件，是的，您没看错，60多G的txt，几亿行。果真如文献上所说，可探索的化学空间可达到10^80……这种东西，最好的处理方式应该是分布式，用spark集群来处理，pyspark里就有很多pandas指令。碍于手头没有可用的资源，只能用最原始的方法，尝试最大程度的简化时间。首先在数据读入上，就出现了问题，开始的...

2022-02-24 17:26:02 1501

原创 anaconda离线装环境

使用的环境:本机中windowsforlinux(Ubuntu18.04)的miniconda，按照依赖包从下往上一层一层安装，大部分依赖包会在本机用pip安装完，其余特殊情况特殊处理。1、在本机中的Ubuntu系统里构建环境：condacreate-nmyenvpython=3.72、使用pip来安装基础的依赖包，同时在此处要注意pip安装的是不是whl的文件。如果是用源代码（source）安装的包的话，就不要使用pip来安装，尽量留到最后才安装。3、打包本机的环境：c...

2022-01-19 16:18:55 2196

原创 jupyter notebook的各种小问题，配置环境，代码补全，远程连接等

不要轻易换电脑，不要轻易换电脑，不要轻易换电脑！！！重要的事情说三遍，除非你不得不。首先jupyter notebook是一种Web应用，在jupyter中写代码与传统的IDE(集成开发环境)如pycharm相比，可视化更方便，同时jupyter也集成了文档笔记功能，便于网络发布。相信小伙伴儿们都用过。jupyter notebook的安装，可以单独安装jupyter，除此之外，在安装anaconda的时候会直接带jupyter notebook，建议通过anaconda的方式，直接一起安装，毕

2021-12-27 16:55:56 581 2

原创 colab使用过程中环境配置踩坑

问题描述: 最近用colab跑一个模型，配置环境过程中有两个包能通过conda安装，还有一个非二进制包(需要！python setup.py install安装)，当我环境配置好后，conda list发现所有包都在，但import XXX的时候却提醒不存在这个modle。解决：被这个问题困扰了将近一天，我真的好悲伤，我躺在地上拉肖邦……试了博客上很多方法，包括什么重新启动conda内核激活环境，不装miniconda而改装anaconda…………可以负责人的告诉大家，以上提到的那些都不好使

2021-12-22 12:03:37 3140 3

原创分享一些人工智能、大数据方向常见的比赛平台

1.kagglehttps://www.kaggle.com/数据发掘和预测竞赛的在线平台。业界影响力最大的数据挖掘比赛平台，赛程奖金丰厚，赛题也非常的丰富。平均每个赛事持续时间在2-3个月左右。kaggle上一些高排名选手会分享代码和经验，是比较好的开源平台，不仅适合比赛，更适合初学者的学习。一些经典的项目，泰坦尼克号，楼市分析等都是很好的入门项目。2.阿里云天池https://tianchi.aliyun.com/competition/gameList/algorithmList这

2021-09-03 12:42:06 970 1

原创 k-means聚类简单代码实现

聚类算法是一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法有欧式距离法。简单的聚类代码实现：# coding:utf-8from math import *from random import randomimport numpy as npfrom numpy import *from numpy.ma import power,mea

2021-05-13 22:53:32 1127

原创决策树简单代码实现

决策树是比较重要的机器学习方法。决策树的本质是一棵由多个判断节点组成的树，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，最后每个叶节点代表一种分类结果。思考：如果一个训练数据集，包含多个特征，在构造决策树的过程中，我们该如何确定判断的顺序呢？这里引入信息熵的概念：与我们在热力学定律中学习到的热熵相似，信息熵是从信息的有序性上进行定义的，当数据量一致时，系统越有序，熵值越低；系统越混乱或者分散，熵值越高。在数学上，信息熵是这样计算的（需要加上权重）：在决策树的构

2021-05-08 19:07:17 2821

原创朴素贝叶斯——连续型数据

关于朴素贝叶斯的原理及离散型的朴素贝叶斯，参见上一篇博文：https://blog.csdn.net/gongfuxiongmao_/article/details/116062023?spm=1001.2014.3001.5502对于连续型的数据，在假定数据符合正态分布的前提下，可以对训练数据中每个特征进行高斯处理，得到一个特征的高斯曲线，利用高斯曲线来估计预测数据属于某一类的概率。比如下面的例子中，数据有四个特征值：x1，x2，x3，x4 ; 同时有三个分类结果：生男孩，生女孩，没怀孕。对应

2021-04-23 20:19:42 3348 2

原创朴素贝叶斯算法——文本分类（离散型）

朴素贝叶斯算法：按照概率分类的算法。我们在豆瓣上经常能看到一些书籍和电影评价，有好的评价，也有差评。关于影评好坏的结果是怎么来的呢？后台小姐姐一条条的看，然后进行分类吗？利用我们的朴素贝叶斯算法，可以实现对文本的分类。在上代码之前先来进行一下数学预热：概率基础复习定义：概率定义为一件事发生的可能性，扔出一个硬币，结果头像朝上P（X）：取值在[0,1]联合概率、条件概率与相互独立：联合概率：包含多个条件，且所有条件同时成立的概率记作：P...

2021-04-23 17:24:25 1854 3

原创 knn方法预测怀孕，KNN原理简单代码

knn算法即： K-近邻算法（K Nearest Neighborhood），物以类聚人以群分，这是一种根据你的邻居，对你进行分类的方法。knn方法属于监督学习方法，其原理是：如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。K为人为设定的超参数提到远近就离不开距离，在学习knn算法之前，建议先复习一下闵可夫斯基距离，数学部分可以参照西瓜书，或李航博士的统计学原理。在本案例中，我们使用的是欧式距离，当闵可夫斯基距...

2021-04-23 15:26:22 587

gongfuxiongmao_的博客

原创 RDkit四：数据处理过程中smiles编码的清洗统一化

原创 colab上利用conda管理环境

原创药物研发常用数据库

原创 CADD之分子对接三：利用autodockvina套件进行批量对接——virtual drug screening

原创 CADD之分子对接二：简单autodockvina对接流程——redocking

原创 CADD之分子对接一：背景介绍

原创 RDkit三：通过smiles编码生成带有分子图的数据表

原创基于DeepChem的机器学习

原创 AI_Drug: 分子生成模型之VAE(一)

原创 RDkit：介绍smiles编码，smart编码及摩根指纹(ECFP)

原创 RDkit二：利用RDkit筛选进行化学小分子2D药效团筛选

原创用于评估分子对接和算法模型的数据集——DUD-E

原创 RDkit一：利用RDkit筛选化学小分子结构特征