自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 RDkit四:数据处理过程中smiles编码的清洗统一化

rdkit使用,化学信息学,AI, AIDD

2023-02-28 13:33:58 3876 6

原创 colab上利用conda管理环境

colab上的环境管理

2023-02-16 19:18:44 3608 1

原创 药物研发常用数据库

详细介绍了一些药物研发过程中需要用到的数据库

2022-11-19 16:59:01 1067

原创 CADD之分子对接三:利用autodockvina套件进行批量对接——virtual drug screening

autodock vina批量分子对接,虚拟筛选保姆级教程

2022-10-16 22:03:36 5774 16

原创 CADD之分子对接二:简单autodockvina对接流程——redocking

autodockvina入门简介

2022-09-26 15:01:15 4452 6

原创 CADD之分子对接一:背景介绍

分子对接原理简介

2022-09-20 17:53:10 3184 1

原创 RDkit三:通过smiles编码生成带有分子图的数据表

rdkit做分子图

2022-08-12 16:35:16 2086 4

原创 基于DeepChem的机器学习

deepchem,数据不平衡

2022-07-01 18:42:35 766

原创 AI_Drug: 分子生成模型之VAE(一)

VAE,分子生成模型,AI制药

2022-06-29 14:42:01 4417 5

原创 RDkit:介绍smiles编码,smart编码及摩根指纹(ECFP)

smiles,smart编码及摩根指纹介绍

2022-06-20 13:53:26 11510 18

原创 RDkit二:利用RDkit筛选进行化学小分子2D药效团筛选

RDkit二:利用RDkit筛选进行化学小分子药效团筛选

2022-06-07 17:48:41 1629

原创 用于评估分子对接和算法模型的数据集——DUD-E

用于评估分子对接和算法模型的数据集——DUD-E

2022-06-07 12:20:21 2135

原创 RDkit一:利用RDkit筛选化学小分子结构特征

最近在做关于小分子筛选的项目,涉及到一些处理方式,后面会逐篇总结遇到的一些问题及解决方法。首先简单介绍一下RDkit,RDkit是一款用来处理化学小分子的python开源包,最早是由诺华公司开发的,底层是由C++编写的。在github上有它的源码和说明书,地址如下:https://github.com/rdkit/rdkithttps://github.com/rdkit/rdkitRDkit在Anaconda或miniconda环境中的安装:c...

2022-05-19 15:24:39 3270 3

原创 在没有spark集群的条件下,pandas处理上亿行数据的过程探索

nlp萌新,最近在尝试一个AIDD的项目,期间遇到了一个有趣的问题,当把从zinc,enamine,ChemBL,CDDI等库中收集到的数据合并到一起后,是一个60多G的txt文件,是的,您没看错,60多G的txt,几亿行。果真如文献上所说,可探索的化学空间可达到10^80……这种东西,最好的处理方式应该是分布式,用spark集群来处理,pyspark里就有很多pandas指令。碍于手头没有可用的资源,只能用最原始的方法,尝试最大程度的简化时间。首先在数据读入上,就出现了问题,开始的...

2022-02-24 17:26:02 1417

原创 anaconda离线装环境

使用的环境:本机中windowsforlinux(Ubuntu18.04)的miniconda,按照依赖包从下往上一层一层安装,大部分依赖包会在本机用pip安装完,其余特殊情况特殊处理。1、在本机中的Ubuntu系统里构建环境:condacreate-nmyenvpython=3.72、使用pip来安装基础的依赖包,同时在此处要注意pip安装的是不是whl的文件。如果是用源代码(source)安装的包的话,就不要使用pip来安装,尽量留到最后才安装。3、打包本机的环境:c...

2022-01-19 16:18:55 2060

原创 jupyter notebook的各种小问题,配置环境,代码补全,远程连接等

不要轻易换电脑,不要轻易换电脑,不要轻易换电脑!!!重要的事情说三遍,除非你不得不。首先jupyter notebook是一种Web应用,在jupyter中写代码与传统的IDE(集成开发环境)如pycharm相比,可视化更方便,同时jupyter也集成了文档笔记功能,便于网络发布。相信小伙伴儿们都用过。jupyter notebook的安装,可以单独安装jupyter,除此之外,在安装anaconda的时候会直接带jupyter notebook,建议通过anaconda的方式,直接一起安装,毕

2021-12-27 16:55:56 516 2

原创 colab使用过程中环境配置踩坑

问题描述: 最近用colab跑一个模型,配置环境过程中有两个包能通过conda安装,还有一个非二进制包(需要!python setup.py install安装),当我环境配置好后,conda list发现所有包都在,但import XXX的时候却提醒不存在这个modle。解决:被这个问题困扰了将近一天,我真的好悲伤,我躺在地上拉肖邦……试了博客上很多方法,包括什么重新启动conda内核激活环境,不装miniconda而改装anaconda…………可以负责人的告诉大家,以上提到的那些都不好使

2021-12-22 12:03:37 2640 1

原创 分享一些人工智能、大数据方向常见的比赛平台

1.kagglehttps://www.kaggle.com/数据发掘和预测竞赛的在线平台。业界影响力最大的数据挖掘比赛平台,赛程奖金丰厚,赛题也非常的丰富。平均每个赛事持续时间在2-3个月左右。kaggle上一些高排名选手会分享代码和经验,是比较好的开源平台,不仅适合比赛,更适合初学者的学习。一些经典的项目,泰坦尼克号,楼市分析等都是很好的入门项目。2.阿里云天池https://tianchi.aliyun.com/competition/gameList/algorithmList这

2021-09-03 12:42:06 764 1

原创 k-means聚类简单代码实现

聚类算法是一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性,将样本划分到不同的类别中,对于不同的相似度计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。简单的聚类代码实现:# coding:utf-8from math import *from random import randomimport numpy as npfrom numpy import *from numpy.ma import power,mea

2021-05-13 22:53:32 984

原创 决策树简单代码实现

决策树是比较重要的机器学习方法。决策树的本质是一棵由多个判断节点组成的树,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。思考:如果一个训练数据集,包含多个特征,在构造决策树的过程中,我们该如何确定判断的顺序呢?这里引入信息熵的概念:与我们在热力学定律中学习到的热熵相似,信息熵是从信息的有序性上进行定义的,当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。在数学上,信息熵是这样计算的(需要加上权重):在决策树的构

2021-05-08 19:07:17 2644

原创 朴素贝叶斯——连续型数据

关于朴素贝叶斯的原理及离散型的朴素贝叶斯,参见上一篇博文:https://blog.csdn.net/gongfuxiongmao_/article/details/116062023?spm=1001.2014.3001.5502对于连续型的数据,在假定数据符合正态分布的前提下,可以对训练数据中每个特征进行高斯处理,得到一个特征的高斯曲线,利用高斯曲线来估计预测数据属于某一类的概率。比如下面的例子中,数据有四个特征值:x1,x2,x3,x4 ; 同时有三个分类结果:生男孩,生女孩,没怀孕。对应

2021-04-23 20:19:42 3137 2

原创 朴素贝叶斯算法——文本分类(离散型)

朴素贝叶斯算法:按照概率分类的算法。我们在豆瓣上经常能看到一些书籍和电影评价,有好的评价,也有差评。关于影评好坏的结果是怎么来的呢?后台小姐姐一条条的看,然后进行分类吗?利用我们的朴素贝叶斯算法, 可以实现对文本的分类。在上代码之前先来进行一下数学预热:概率基础复习定义:概率定义为一件事发生的可能性,扔出一个硬币,结果头像朝上P(X):取值在[0,1]联合概率、条件概率与相互独立:联合概率:包含多个条件,且所有条件同时成立的概率 记作:P...

2021-04-23 17:24:25 1705 3

原创 knn方法预测怀孕,KNN原理简单代码

knn算法即: K-近邻算法(K Nearest Neighborhood),物以类聚人以群分,这是一种根据你的邻居,对你进行分类的方法。knn方法属于监督学习方法,其原理是: 如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K为人为设定的超参数提到远近就离不开距离,在学习knn算法之前,建议先复习一下闵可夫斯基距离,数学部分可以参照西瓜书,或李航博士的统计学原理。在本案例中,我们使用的是欧式距离,当闵可夫斯基距...

2021-04-23 15:26:22 483

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除