- 博客(58)
- 资源 (7)
- 收藏
- 关注
原创 Nat. Commun | 预测RNA-蛋白质结合偏好的深度学习框架
作者 | 陆丰庆指导 | 闵小平教授、曾湘祥教授单位 | 厦门大学研究方向 | 生物序列相互作用,深度学习1. 研究背景RNA与蛋白质之间的相互作用在转录后的调节中起重大作用,因此需对R...
2019-10-31 21:23:43 3560
原创 标准氨基酸和质子化氨基酸 三字母 单字母 对应表
|中文名称|英文名称|三字母符号|单字母符号|丙氨酸 Alanine A Ala苯丙氨酸 Phenylalanine F Phe半胱氨酸 Cysteine ...
2019-10-31 17:05:35 3563
原创 人工智能 vs 机器学习 vs 深度学习的区别
In fact, the business plans of the next 10,000 startups are easy to forecast: Take X and add AI. Find something that can be made better by adding online smartness to it-Kevin Kelly, The Inevitabl...
2019-10-29 17:05:39 1211
原创 RDKit | 基于Fraggle算法评估化合物的相似性
当评估分子相似性时,经常使用基于分子指纹的Tanimoto系数。该方法本身没有问题,但是使“相似”的原因因情况而异,因此存在新的相似性确定方法的空间。Fraggle就是一种特殊的相似性评估算法。Fraggle与现有相似度评估方法之间的差异 Fraggle是用于考虑GSK中分子相似性的方法之一,最初是在2008年使用Daylight工具包实现的。RDKit...
2019-10-29 10:59:59 2046
转载 NLP(5) | 命名实体识别
NLP(1) | 词向量one hot编码词向量编码思想NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词NLP(3)| seq to seq 模型NLP(4) | 用词向量技术简单分析红楼梦人物关系用n-gramma生成词向量word2vect进行模型训练为什么需要实体识别普通的工具如hanlp,htp,不能识别特定领域的专有名词,所以需要实体识别的算法。下面就...
2019-10-25 22:00:50 1929
转载 NLP(4) | 用词向量技术简单分析红楼梦人物关系用n-gramma生成词向量word2vect进行模型训练
NLP(1) | 词向量one hot编码词向量编码思想NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词NLP(3)| seq to seq 模型前言:出于种种原因,总是不自觉把爱好和工作相互结合起来,每每感叹于曹雪芹构思的巧妙,语言的精炼,情节的感人……于是蹦出想法,看机器能否读懂“宝黛”之间的爱情。数据处理数据当然是伟大的《红楼梦》本身了,下载txt文件。...
2019-10-25 21:47:55 2566 1
转载 NLP(3)| seq to seq 模型
NLP(1) | 词向量one hot编码词向量编码思想NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词什么是Seq2Seq网络? 在Seq2Seq模型中采用了这种 Encoder-Decoder架构,其中 Encoder 是一个RNNCell(RNN ,GRU,LSTM 等) 结构,四层的LSTM结构使得能够提取足够多的特征,使得decode的模型变好 几种Seq2Se...
2019-10-25 21:16:42 2793
转载 NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
NLP(1) | 词向量one hot编码词向量编码思想分词的概念 简单来说就是把词进行分开,分词的难点: 1.如何避免歧义,如:“白开水不如果汁甜”。如何让机器避免将“如果”分到一起。 2.如何识别未登录词,并判断词性(人物,地点) 解决歧义的方法有很多,使用n_gram模型或者概率统计在解决歧义的作用下很好实现,如下面要介绍的HMM和CRF.分词方法分类基于...
2019-10-25 21:01:34 1612
转载 NLP(1) | 词向量one hot编码词向量编码思想
词向量one hot编码词向量编码思想Word2VecEmbeddingSkip-gram的原理负采样前言:深度学习网络rnn能解决有序的问题,我们就生活在这样一个有序的世界。比如时间,音乐,说话的句子,甚至一场比赛,比如最近正在举办的俄罗斯世界杯。one hot编码我们在做分类任务的时候经常用到one hot编码,如果把自然语言中每个词当做一个...
2019-10-25 20:38:18 3490
原创 PubChem的Python接口PubChemPy
PubChemPubChem,即有机小分子生物活性数据,是一种化学模组的数据库,由美国国家健康研究院( US National Institutes of Health,NIH)支持,美国国家生物技术信息中心负责维护。PubChem数据库包括 3个子数据库: PubChem BioAssay 库用于存储生化实验数据,实验数据主要来自高通量筛选实验和科技文献; PubChem Compoun...
2019-10-24 15:58:51 6831 4
原创 回归模型-衡量预测质量的指标:
衡量预测质量的指标:误差平方:缺点:取值与样本量n有关,随着数据集的增大而增大均方误差(Mean Squared Errer,MSE):平方误差的均值缺点:平均偏离误差数是呈x^2平方增长均方根误差(Root Mean Squared Error,RMSE)缺点:取值范围为无穷,不能直观的看出模型的质量拟合优度 r2=r2xy(SST=Syy):...
2019-10-24 15:24:29 2440
原创 CentOS7.5安装配置PostgreSQL11
CentOS系统中安装postgresql的rpm源yum install https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm安装客户端:yum install postgresql11安装服务端:yum install ...
2019-10-24 15:22:38 2339
原创 Python创建Excel表格并写入数据之xlwt
#!python3#coding:utf-8import xlwtf = xlwt.Workbook()sheet1 = f.add_sheet(r'sheet1', cell_overwrite_ok=True)sheet1.write(0,0,"Name")sheet1.write(0,1,"Conf")sheet1.write(0,2,"Grid score")sh...
2019-10-24 15:18:08 4386
原创 RDKit | 统计分子库中某种元素出现的次数
导入库import pandas as pd from rdkit import Chemfrom rdkit.Chem import rdMolDescriptorsfrom rdkit.Chem import Drawimport numpy as npimport warningswarnings.filterwarnings("ignore")载入数据df...
2019-10-24 15:09:48 1779 1
原创 RDKit | 化合物活性数据的不平衡学习
不平衡学习(Imbalanced learning)不平衡数据的定义顾名思义即我们的数据集样本类别极不均衡,以二分类问题为例,数据集中的多数类 为Smax,少数类为Smin,通常情况下把...
2019-10-24 09:18:12 1188
原创 RDKit | 基于Lipinski规则过滤化合物库
Lipinski规则 有机小分子药物设计中,很多小分子候补化合物往往具有很好的in vitro活性,但是一旦进入下一步动物实验的时候,in vivo的药理活性常常得不到很好的结果。往往当出现这种情况的时候,就涉及到药代动力学范畴,比如透膜性,代谢稳定性等除了小分子候补药物与靶蛋白结合能力以外必须要考虑的问题。尤其是口服的化合物,口服后需要考虑如何被消化器官吸收,如何通过...
2019-10-24 09:11:16 3714
原创 RDKit | 化合物活性数据的不平衡学习
不平衡学习(Imbalanced learning)不平衡数据的定义顾名思义即我们的数据集样本类别极不均衡,以二分类问题为例,数据集中的多数类 为Smax,少数类为Smin,通常情况下把多数类样本的比例为100:1、1000:1,甚至是10000:1这种情况下为不平衡数据。为什么不平衡学习因为传统的学习方法以降低总体分类精度为目标,将所有样本一视同仁,同等对待,造成了分类器在多数类...
2019-10-24 09:04:28 1526
原创 RDKit | 基于不同描述符和指纹的机器学习模型预测logP
log P(油水分配系数)是确定化合物是否适合用作药物的最重要属性之一。当前,用于计算机预测log P的大多数可用回归模型都在实验测得的log P值(PHYSPROP数据库)。但是,该数据库中的大多数化合物并不高度代表药物样化学空间。不幸的是,当前缺乏可用于训练更好的预测工具的公开可用的实验log P数据集。 此测试使用论文中发布的实验log P数据:“Large...
2019-10-24 09:04:07 4384 3
原创 RDKit | 通过评估合成难度(SA Score)筛选化合物
无论如何获得先导化合物,评估候选先导化合物的合成难度都很重要。无论该化合物在计算机上的应用前景如何,实际上并未对其进行合成和评估。 介绍SA score(SyntheticAccessibility score)作为评估化合物合成难易程度的一种方法。药物研发中合成难度评估的重要性药物发现研究中的主要候选化合物:预期的活性值 结构新颖,易于申请专利 ...
2019-10-24 09:03:52 4314 4
原创 RDKit | 天然产物的相似度评分(NP-likeness)
天然产物在药物发现的历史上占有非常重要的地位,许多药物仍然是天然产物及其衍生物。因此,过去大型制药公司都拥有“天然产物化学”部门,但是低通量天然产物的筛选逐渐变得无利可图并被关闭。 与药物发现化学中通常合成的化合物相比,天然产物的结构特征为:许多稠密的环结构 许多不对称中心 芳香环更少,sp3碳更多 氧原子百分比高,氮原子百分比低天然产物化合物的...
2019-10-24 09:03:34 1917 1
原创 RDKit | 基于RDKit和scikit-learn的KNN模型预测Ames的致突变性
化学信息学中的模型构建将分子转换为特征向量(编码) 描述特征向量与目标分子特性(映射)之间的关系K最近邻(kNN,k-NearestNeighbor)将数据集放置在特征空间中(学习) 根据k个相邻数据点的值确定新点的值(预测)当k = 1时:它被归类为“红色”以及最接近的红点。 当k = 3时,最接近的三个点是红色2蓝色1,并以多数票被归类为“红色”。 当k = 5时:最接...
2019-10-24 09:03:20 1566
原创 RDKit | 计算拓扑极性表面积TPSA
极表面积(PSA) 化合物的极性表面积(PSA)是分子表面极性部分的面积值的总和。极性部分通常在诸如氧或氮的杂元素周围,因此可以认为这些部分结构是加在一起的。PSA的特点 PSA是描述分子的极性和脂溶性的描述符,例如辛醇/水分配比(logP)。在PSA和膜渗透性的实验数据之间发现了很好的相关性。例如太大PSA(140埃2具有上述化合物)已被经验已知为具...
2019-10-24 09:01:33 5396 1
原创 Nat. Light | 深度学习在全息和相干成像中的应用
作者 | 罗潇澧指导 | 曾湘祥教授审稿 | 舒心(香港中文大学)单位 | 湖南大学研究方向 | 生物医学检测研究背景尽管全息相干成像显微镜存在着如无标记,无扫描3D成像等诸多优点,相对...
2019-10-20 14:08:36 4163
原创 RDKit | 子结构搜索和MCS算法
MCS:Maximum Common Substructure 即使查询分子与数据库分子不完全匹配,也想知道其中有多少个通用结构,即最大公共子结构(MCS)。可以使用与子图同构相同的方法来计算。也可以按原样使用公共键(边)的数量作为阈值,或将其转换为相似性指标,例如Jaccard / Tanimoto系数。 部分结构匹配的情况下,可以在结构匹配时(或确定它们不匹...
2019-10-20 13:21:09 2751 3
原创 RDKit | 基于RDKit描述三维分子形状(3D描述符)
近年来,表达分子的三维特征变得越来越重要。已经提出了许多3D描述符,这次将介绍它们中经常使用的三个,Fsp3,PMI和PBF。Fsp3是分子复杂性的指标 二甲基吡啶及其不饱和化合物二甲基哌啶中可以存在多少种异构体?答案是前者有5种,而后者有34种,包括旋光异构体。由于分子量几乎相同,因此简单地将芳族化合物更改为脂肪族化合物会增加分子的复杂性,并大大扩展了化合物...
2019-10-19 12:51:35 4975
原创 RDKit | 化合物芳香度分子描述符的计算与相关性比较
分子描述符是确定分子性质的指标。 本文想看看描述分子特性中侧重于“化合物芳香度”的描述符。随着交叉偶联反应的发展,将芳环引入分子变得更加容易。另一方面,已知具有多个芳环的化合物的物理性质不是非常良好。因此,从数字上把握化合物的芳香度是药物发现化学研究中的有用指南。已经提出了各种描述符:表示芳香度的描述符的定义和性质 如何使用RDKit计算芳香指标:...
2019-10-18 13:04:13 4218 2
原创 RDKit | 基于分子形状的比对
基于分子形状的比对对于虚拟筛选和骨架跃迁都是非常有用的。导入库import osfrom rdkit import Chemfrom rdkit.Chem import AllChemfrom rdkit import RDConfigfrom rdkit.Chem.Draw import IPytho...
2019-10-17 12:12:35 1532
原创 RDKit | 基于分子指纹的相似性图
Similarity Maps相似性图是一种可视化原子对分子和参考分子之间相似性的贡献的方法。相似性图可用于可视化和确认相似区域。导入库from rdkit import Chemfrom rdkit.Chem import AllChemfrom rdkit.Chem import Drawfrom rdkit.Chem.Draw import Similarity...
2019-10-17 11:17:46 3491 1
原创 NGLView 安装与配置-交互式分子结构和轨迹查看
NGLViewNGLview 是Jupyter Notebook的小插件, 可用于交互地可视化分子结构, 可以查看分子动力学轨迹数据. 支持读取文件数据。程序的源代码可以在网上Github里查看, 同时也可以在PyPI和bioconda内获取. NGLview在服务器端采用python, 而在客户端则采用JS来实现, 与Jupyter的整合则通过ipywidgets包实现. 客户端采用N...
2019-10-16 18:29:50 5018 3
原创 RDKit | 可视化分子来自于xyz文件
通过xyz文件可视化小分子导入库from __future__ import print_functionfrom rdkit import Chemfrom rdkit.Chem.Draw import IPythonConsolefrom IPython.display import S...
2019-10-16 17:37:00 2812
原创 RDKit | 化合物亚结构搜索与结果输出
环境Python 3.6 RDKit 2019方法假定搜索目标化合物作为Mol字符串包含在称为mols的列表中。 可以在以下流程中执行部分结构搜索,并突出显示匹配化合物的匹配部分结构。导入库from rdkit.Chem import AllChemfrom rdkit.Chem import Draw, Descriptorsfrom rdkit.Chem import...
2019-10-16 13:47:34 1809
原创 Nature Methods | 用深度多任务神经网络探索单细胞数据
作者 | 蒋长志指导 | 刘向荣教授,曾湘祥教授单位 | 厦门大学研究方向 | 多任务学习,图神经网络1.研究背景在生物医学领域,分析大规模、高维度的单细胞数据,并且处理由分批实验效应和...
2019-10-15 18:37:39 1960
原创 CentOS 7 下安装 Docker 及操作命令
Docker 安装官方网站上有各种环境下的安装指南,比如:CentOS、Ubuntu和 Debian 系列的安装。而我们现在主要介绍的是基于 CentOS 7.x 上面的安装。1、查看是否已经安装过docker[root@localhost ~]#yum list installed | grep dockerdocker.x86_64 ...
2019-10-15 15:56:27 1064
原创 CentOS7.6 安装配置Amber18/AmberTools18(GPU加速版)
硬件环境:1. 解压安装包tar jxvf AmberTools18.tar.bz2tar jxvf Amber18.tar.bz22. 安装环境依赖需要使用默认的CentOS7编译器,以及gcc4.8.5编译的CUDA组件。su rootyum install gcc gcc-gfortran gcc-c++ flex tcsh zlib-devel \...
2019-10-15 10:24:05 5615
原创 RDKit | RDKit 中的RECAP进行分子裂解
当用多种化合物构建文库时,用多种化合物构建,以覆盖尽可能多的生理活性 在已发现的生物活性化合物附近使用化合物构建有一种思方式根据化合物之间的距离和相似性来选择具有各种骨架的化合物。另一种方法是在配体的基础上插入“基本活性”的亚结构。此时,考虑到合成化学的观点,如果化合物可以自动片段化成可能影响其活性的部分结构,则可以进行有效的化合物设计。化合物碎片化和从头设计假设分子被分解为...
2019-10-15 09:01:25 1857
原创 RDKit | 基于分子指纹的分子相似性
分子相似性:相似性原理(similar property principle)指出,总体相似的分子应具有相似的生物活性。相似性评估化合物的指纹对于使用计算机考虑化合物的相似性是必需的。已经提出了各种评估方法,但是最常用的评估方法称为“Tanimoto系数”。使用以下等式从两个分子A和B的位阵列指纹计算Tanimoto系数:导入库import pandas ...
2019-10-14 11:27:16 4218
原创 SMILES & InChI | 化学结构的线性表示法
SMILES表示法、SMARTS表示法和InChI表示法都是用少量字符表示结构信息的重要方法。化合物的图表示 可以将一个分子视为一个以原子为节点,结合为边的图。图形可以表示一个原子如何连接到另一个原子。如果已知原子之间的键数,则可以在以后添加氢原子,因此在计算机上表示分子时通常会省略氢原子。 例如,丙烷可以表示为...
2019-10-14 09:26:01 6531 1
原创 RDKit | 小分子构象的生成和比对
基于RDKit的分子构象生成和比对导入模块和包from rdkit import Chemfrom rdkit.Chem import AllChemfrom rdkit import RDConfigimport osfrom rdkit.Chem.Draw import IPythonConsolefrom rdkit.Chem import Draw载入数...
2019-10-12 12:56:51 1692
原创 RDKit | 基于相似图可视化原子贡献
尝试使用相似度图的方法来可视化每个原子对特定描述符的贡献。 虽然使用了相似图(SimilarityMaps),但它们仅基于每个原子的贡献而可视化,与分子的相似性无关。导入库from rdkit import rdBase, Chemfrom rdkit.Chem import AllChem, Draw, rdMolDescriptorsfrom rdkit.Chem...
2019-10-12 09:44:01 1620
RDKit Documentation Release 2019.09.1.pdf
2019-12-26
基于神经网络的溶解度预测和回归分析的数据集文件
2018-09-16
pymol-2.1.0-cp36-cp36m-win
2018-05-18
2017-Bioinformatics-Volume II- Structure, Function, and Applications
2018-05-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人