分子描述符相关( Molecular Descriptor)

Quantitative studies on structure-activity and structure-propertyrelationships are powerful tools in directed drug research. Inrecent years, various strategies have been developed tocharacterize and classify structural patterns by means of moleculardescriptors. It has become possible not only to assess diversitiesor similarities of structure databases, but molecular descriptorsalso facilitate the identification of potential bioactive moleculesfrom the rapidly increasing number of compound libraries. They evenallow for a controlled de-novo design of new lead structures.

------Roberto Todeschini, Milano Chemometrics, Univ.Milano-Bicocca, Italy
------Viviana Consonni, Milano Chemometrics, Univ. Milano-Bicocca,Italy
---WILEY-VCH
---ISBN: 3-52-29913-0, 668 pages, 2000


分子描述符(molecular descriptor)
http://www.moleculardescriptors.eu/介绍分子描述符的网站比较全面
have some books about molecular descriptor and online softwares,just like corina, cdk....

ADAPT
http://research.chem.psu.edu/pcjgroup/adapt.html
描述符数量: 260+
描述符类型: 拓扑、几何、电子、物化
运行系统: Unix/Linux
发行方: Jurs Research Group
Fortran语言开发,在Unix下运行,使用不便。

ADMET Predictor
http://www.simulations-plus.com/
描述符数量: 297 (266 2D and 31 3D)
描述符类型:constitutional, functional group counts, topological,E-state, Moriguchi descriptors, Meylan flags, molecular patterns,electronic properties, 3D descriptors, hydrogen bonding, acid-baseionization, empirical estimates of quantum descriptors .
运行系统: Windows
发行方: Simulations Plus
商用软件

ADRIANA. Code
http://www.molecular-networks.com/software/adrianacode/index.html
描述符数量: 1244 (with default settings)
描述符类型:global physicochemical descriptors, atom property-weighted2D- and 3D-autocorrelations and RDF, surface property-weightedautocorrelations.
运行系统: Linux/Windows
发行方:Molecular Networks
可试用,图形界面

ALMOND
http://www.moldiscovery.com/soft_almond.php
Type of descriptors: GRIND
O.S.: Unix/Linux/SGI/Windows
Released by: Molecular Discovery
特有的GRIND描述符,可以下载。

描述符数量: about 1500
描述符类型: constitutional, topological, geometrical, charge-related,semi-empirical, thermodynamical
运行系统: Windows
发行方:Codessa Pro
商用软件

DRAGON
http://www.talete.mi.it/

描述符数量: 3224
描述符类型: constitutional, topological, 2D-autocorrelations,geometrical, WHIM, GETAWAY, RDF, functional groups, properties, 2Dbinary and 2D frequency fingerprints, etc.
运行系统: Windows/Unix/Linux
发行方:TALETE
商用软件,可试用。

E-Dragon at VCCLAB
http://www.vcclab.org/lab/edragon/
描述符数量:1600+
DRAGON的远程在线版本,免费使用,推荐!!

Estimation Program Interface (EPI) Suite
http://www.epa.gov/oppt/exposure/pubs/episuite.htm
一个免费的集成包

GRID
http://www.moldiscovery.com/soft_grid.php
Type of descriptors: molecular interaction fields
O.S.: Unix/Windows
Released by: Molecular Discovery
有文献发表,可下载。

JOELib
描述符数量:over 40
描述符类型: counting, topological, geometrical, properties, etc.
运行系统:Windows/Unix/Linux
发行方:University of Tübingen
Java开发

MOE
http://www.chemcomp.com/
描述符数量:over 300
描述符类型: topological, physical properties, structural keys,etc.
运行系统: Windows/Linux/SGI/MAC/Sun
发行方: Chemical Computing Grou
商用软件

描述符数量:over 40
描述符类型: topological
运行系统: Windows/Unix/Linux/MAC
发行方: eduSoft
商用软件,可以试用

MOLE db - Molecular Descriptors Data Base
http://michem.disat.unimib.it/mole_db/
一个免费的描述符在线数据库。有234773个分子的1124项描述符。

描述符数量: 707
描述符类型: constitutional, topological, geometrical, etc.
运行系统: Unix/Linux/Sun
发行方: University of Bayreuth
商用软件,有演示版

描述符数量:over 1000
描述符类型: constitutional, atom pairs, fingerprints, BCUT, etc.
运行系统:Windows
发行方:National Institute of Statistical Sciences
可免费使用

描述符数量:1081
描述符类型:constitutional, topological, geometrical, physicochemical,etc.
运行系统: Windows
发行方:PreADMET
有web-based和商用两个版本。

描述符数量:1084
描述符类型:constitutional, 2D and 3D descriptors
运行系统:Windows or Linux
发行方:Strand Life Sciences
商用软件,有评价版

WebME Molecule Editor
http://www.molinspiration.com/docu/webme/index.html
在线的分子编辑器,可以查看编辑分子的描述符及3D结构
好的,针对问题1,我们可以使用随机森林算法对分子描述符进行变量选择,并根据变量的重要性进行排序,找出对生物活性影响最显著的前20个分子描述符。 具体步骤如下: 1. 读取“Molecular_Descriptor.xlsx”和“ERα_activity.xlsx”中的数据,将它们合并为一个数据集。 2. 将数据集分为训练集和测试集,可以采取随机划分的方法,比如将数据集的80%作为训练集,20%作为测试集。 3. 对训练集中的分子描述符进行标准化处理,以便它们具有相同的尺度。标准化可以消除不同分子描述符之间的量纲差异,使得它们可以进行比较。可以使用sklearn库中的StandardScaler对训练集进行标准化处理,然后对测试集使用相同的标准化参数进行标准化。 4. 使用随机森林算法训练模型,并评估每个分子描述符的重要性。可以使用sklearn库中的RandomForestRegressor实现随机森林算法。 5. 根据分子描述符的重要性进行排序,并选择排名靠前的20个分子描述符作为变量。具体可以使用sklearn库中的feature_importances_属性获取每个分子描述符的重要性,并使用np.argsort()函数对重要性进行排序。 6. 最后,我们需要对变量选择过程进行评估和优化,以确保选择的变量具有一定的泛化能力和稳定性。可以使用交叉验证等方法评估变量选择的性能,并进行调参等操作。 分子描述符的筛选和排序过程是非常重要的,如果不合理可能会导致模型的预测性能下降。使用随机森林算法进行变量选择的原因是,随机森林算法不仅可以考虑每个分子描述符对生物活性的影响,还可以考虑分子描述符之间的相互作用和非线性关系。因此,随机森林算法可以比较全面地评估每个分子描述符的重要性,并找出对生物活性影响最显著的变量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值