自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(117)
  • 资源 (2)
  • 问答 (4)
  • 收藏
  • 关注

原创 2024年7月——使用ESM3(进化尺度的蛋白质语言模型)

esm3 蛋白质语言模型

2024-07-03 11:36:48 1197

原创 efficient evolution 抗体进化模型笔记

通过不同的模型(例如:'esm1b', 'esm1v1', 'esm1v2' 等)进行重构,并比较每个模型生成的突变。此外,还包含了使用 eval_sapiens函数 评价人源相似度。,则返回包含突变计数和模型名称的元组。函数的作用是针对给定的野生型序列。否则,仅返回突变计数。

2024-07-03 11:20:33 232

原创 不同领域环境中的“组分分析”

在统计学和机器学习领域,主成分分析是一种降维技术,它通过线性变换将数据转换到一个新的坐标系统中,使得这个新坐标系统的第一坐标轴上的方差最大(即第一主成分),第二坐标轴上的方差次之(即第二主成分),依此类推。组分分析在不同的学术领域和应用场景中可能有不同的含义,但通常它指的是一种分析方法,用于识别和量化一个复杂系统、样本或信号中的各个组成部分。在工程和科学研究中,组分分离技术如蒸馏、萃取、过滤等,都是用于将混合物中的不同组分分开,以便于进一步的分析或使用。

2023-12-25 22:25:30 359 1

原创 用于药物发现的知识图谱

本教程全面概述了长期存在的药物发现原理,提供了图结构数据和知识数据库的基本概念和前沿技术,并正式总结了用于药物发现的知识增强图机器学习 (KaGML)。一个项目是 **KDD2023_KaGML_DrugDiscovery_Tutorial**,它是一个关于药物发现的教程,介绍了如何使用知识增强的图机器学习(KaGML)来进行药物发现¹。另一个项目是 **integrating_knowledge_data**,它是一个将基因表达和生物知识整合到药物发现和再利用中的项目²。

2023-12-01 11:29:23 242

原创 DeepPurpose深度学习工具包

DeepPurpose是一个基于深度学习的工具包,可用于药物靶点识别、药物属性预测、蛋白质-蛋白质相互作用预测等¹。它支持多种分子编码任务,包括药物-靶标相互作用预测、化合物属性预测、蛋白质-蛋白质相互作用预测和蛋白质功能预测¹。DeepPurpose通过实现15个化合物和蛋白质编码器以及50多种神经架构,以及提供许多其他有用的功能来支持定制DTI预测模型的训练⁴。它使用PyTorch框架进行深度学习,促进生命科学研究¹。(3) DeepPurpose:药物虚拟筛选、构效关系及更多用途的深度 ....

2023-11-26 15:50:08 401

原创 np.concatenate

np.concatenate函数是numpy库中用来连接两个或多个数组的函数。运行这段代码,你会得到:`[1 2 3 4 5 6]`,两个数组在一个维度上进行了连接。希望这个例子可以帮助你理解np.concatenate的基本功能。# 在第一个维度上(axis=0,行方向)拼接。# 在第二个维度上(axis=1,列方向)拼接。# 使用np.concatenate进行连接。# 创建两个一维数组。# 创建两个二维数组。

2023-09-09 19:29:38 459

原创 【代码示例】将label转为np数组,并存为pkl文件

首先读取训练集和测试集的复合物的文件地址,去除训练集中与测试集重叠的样本,再打乱顺序。接下来通过活性数据表‘INDEX_general_PL_data.2019’依次对读取。需要说明这里的训练集由于会多旋转9次进行数据增强,所以label会乘以10.最终使用ectend和append添加成数组,保存为np.array。就是训练用的复合物的 pdb id。就是测试用的复合物的 pdb id。接着就可以存为pkl文件。

2023-08-21 09:09:49 152

原创 【蛋白-蛋白】Rosetta InterfaceAnalyzer 学习笔记

这里以(PDB:3R2X)为例,介绍如何利用Rosetta中InterfaceAnalyzer来快速分析蛋白-蛋白相互作用,并提取有价值的信息。注意: InterfaceAnalyzer不可用于蛋白质-小分子相互作用界面分析。使用Rosetta score_jd2 app对输入的PDB文件进行打分可以快速修复结构的方法,确保输入文件能够正确地被Rosetta读取。(提示: 3r2x中存在残基插入码,如A链的264A Gly,因此需要对整个PDB结构进行重编号,否则packsat计算异常。-out:pdb。

2023-08-17 21:12:07 1176

原创 如果我的VMware虚拟机的Ubuntu22.04系统没有英伟达驱动,该怎么办?

需要注意的是,由于你使用的是VMware虚拟机,可能无法直接安装英伟达官方驱动。因此,即使安装了英伟达驱动,也可能无法实际使用英伟达显卡功能。2. 安装Nouveau驱动:Nouveau是一个开源的英伟达显卡驱动,可以在一些英伟达显卡中提供基本的图形功能。- 禁用Nouveau驱动:在安装英伟达官方驱动之前,需要禁用Nouveau驱动。- 安装依赖项:确保你的系统已安装必要的依赖项,例如`gcc`、`make`和`kernel headers`。如果没有英伟达显卡,那么安装英伟达驱动是没有意义的。

2023-08-12 21:26:41 5853

原创 scikit-plot 使用笔记

PCA的目标是将高维数据转换为一组低维的主成分,这些主成分将数据中的方差解释得尽可能好。第一个主成分解释了最大的方差,第二个主成分解释了次大的方差,以此类推。每个主成分都是关于原始特征的线性组合,并且它们之间是正交的(相互之间不相关)。主成分类似于原始数据的投影,但是它们的排序是如此安排,以便第一个主成分解释了最大的方差,第二个主成分解释了次大的方差,以此类推。主成分是原始数据的线性组合,通过这种方式,它们能够捕捉到数据中的最大方差。

2023-08-07 11:39:25 380

原创 删除工作路径里所有的蛋白质文件的HETATM

linux系统,在终端直接输入运行

2023-08-01 16:26:02 168

原创 在python中训练Gnina的Caffe模型

Required- Optional* Samplelayer {top: "out"The `BNLL` (binomial normal log likelihood) layer computes the output as log(1 + exp(x)) for each input element x.“BNLL”(二项式正态对数似然)层将每个输入元素 x 的输出计算为 log(1 + exp(x))。## Sample。

2023-07-20 14:40:57 221

原创 Gnina split_caffe_proto.py

脚本尝试创建`../docs/_includes/`和`../docs/_includes/proto/`两个目录,若目录已存在则忽略,若创建失败则抛出异常。6. 使用正则表达式匹配`caffe.proto`文件中的参数定义信息。将参数定义写入以参数名称命名的文本文件,保存在`../docs/_includes/proto/`目录下。4. 构建`caffe.proto`文件的完整路径`caffe_proto_fn`。

2023-07-19 22:10:36 1130

原创 使用Py2neo构建知识图谱(概念与实现)

知识图谱的构建方法有很多种,其中比较常见的包括自顶向下和自底向上两种方法。自顶向下构建方法是指从高质量数据中提取本体和模式信息,加入到知识库中;而自底向上构建方法则是从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。自顶向下和自底向上是两种不同的构建方法。自顶向下构建方法是指从高质量数据中提取本体和模式信息,加入到知识库中;而自底向上构建方法则是从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。

2023-06-30 21:12:51 1009

原创 深度学习时,对数据归一化的作用?

例如 如果你的一个特征是10000,一个特征是0.2,当这两个输入到任何学习模型中时,学习速度都会很慢。如果两个特征之一为0.1,另一个为0.3,学习速度就会加快。这也是为了避免梯度消失,使每一层更加独立,不受前一层的影响。对于数据本身来说,没有强制要求必须满足正态分布的条件,除非是非正常分布。事实上,我们正在谈论数据标准化。这是一种特征处理方法,使所有标准化特征满足N(0, 1)的标准正态分布。当我们进行深度学习训练时,往往希望数据越接近正态分布越好,这样训练效果就会明显提升。

2023-06-23 18:09:59 164

原创 官网方法,conda环境安装tensorflow,可使用多个GPU

如果您想要在多台机器上进行分布式训练,您可以使用其他分布式策略,例如 tf.distribute.experimental.MultiWorkerMirroredStrategy 或 tf.distribute.experimental.TPUStrategy。在 TensorFlow 2.4 版本中,可以使用 tf.distribute.MirroredStrategy 来在一台机器的多个 GPU 上进行同步分布式训练。在一台或多台机器上,要顺利地在多个 GPU 上运行,最简单的方法是使用。

2023-06-19 15:58:41 938

原创 【List】python列表中,append和extend的区别

list中的两种添加元素的方法的区别

2023-06-01 01:52:19 70

原创 python中的大括号{}的用法

在这个例子中,{epoch:03d}表示将epoch变量插入到字符串中,并使用3位数字进行填充,如果数字不足3位,则在前面添加零。{val_loss:.4f}表示将val_loss变量插入到字符串中,并使用4位小数进行填充。在Python中,{}是格式化字符串的占位符,用于指示在字符串中插入变量的位置。

2023-05-21 02:16:15 3389

原创 在anaconda环境中使用Gitlab上的项目

GitLab和GitHub都是基于web的Git仓库,它们都提供了分享开源项目的平台,为开发团队提供了存储、分享、发布和合作开发项目的中心化云存储的场所。GitLab是仿照GitHub来做的,但是GitLab提供了更多的功能,比如自带CI/CD。CI/CD的核心概念是持续集成、持续交付和持续部署。它是作为一个面向开发和运营团队的解决方案,主要针对在集成新代码时所引发的问题(也称为:“集成地狱”)。安装完成后,您可以在anaconda环境中使用python-gitlab包来与GitLab上的项目进行交互。

2023-04-25 15:05:30 697

原创 【Tensorflow】模型如何加载HDF文件数据集?

定义文件模式,假设三个数据集都在/dataset文件夹中# 定义读取函数# 创建文件名数据集# 读取数据load_data,load_data,load_data,# 打乱和批处理数据`interleave` 函数可以从多个数据集中交替地读取数据。在这个例子中,我们使用 `interleave` 函数来并行地从多个 HDF5 文件中读取数据。

2023-04-23 16:52:05 767

原创 怎么在linux服务器选择GPU进行训练模型?

命令会输出一些关于服务器上 NVIDIA GPU 的信息,包括每个 GPU 的型号、驱动版本、总内存、使用内存、温度、功率和运行在其上的进程等。这意味着,当您运行训练脚本时,它只会使用服务器上的第 0 和第 1 个 GPU(假设它们是可用的)。命令来查询 Linux 服务器上可用的 GPU。首先查看当前节点有那些可用的GPU:使用。

2023-04-23 15:51:54 2258

原创 如何用 tensorflow 构建卷积网络,使用batch_size批量训练?

其中,`batch_size`是指每次训练时使用的样本数,`epochs`是指训练的轮数。在训练时,每个epoch会将所有训练数据都过一遍,而每个epoch又分为多个batch,每个batch包含的样本数就是`batch_size`。通过修改代码中的`batch_size`参数即可实现批处理。# 修改代码以使用batch_size进行批处理。# 将卷积层的输出扁平化,以便输入到全连接层。# 编译模型,指定损失函数和优化器。

2023-04-23 15:10:40 678

原创 使用PyTorch来训练图像分类模型

这个代码片段中,我们首先定义了一个数据加载器,然后定义了一个My_Model类,它继承自nn.Module类。在这个类中,我们定义了一个输入层、一个输出层和一个隐藏层。然后我们定义了一个training_step()方法,用于计算损失并返回损失值。在训练过程中,我们使用Adam优化器来更新模型参数。

2023-04-10 01:41:10 610

原创 将多个分子的SMILES字符串写入到一个文件中

这段代码首先创建了一个包含两个分子的列表,然后打开了一个名为output.smi的文件,并创建了一个SmilesWriter对象。最后,循环遍历分子列表,将每个分子写入到文件中。# 创建SmilesWriter对象。

2023-04-10 01:20:02 582

原创 argparse到底怎么用?

方法创建一个新的ArgumentParser对象,该对象将保存解析命令行参数所需的所有信息。方法解析命令行参数并返回一个具有与参数对应的属性的对象。可以帮助你编写用户友好的命令行接口。Python内置的模块。

2023-03-27 16:50:27 385

原创 深度强化学习 DDPG 详细代码示例

方法创建一个新的ArgumentParser对象,该对象将保存解析命令行参数所需的所有信息。方法解析命令行参数并返回一个具有与参数对应的属性的对象。可以帮助你编写用户友好的命令行接口。Python内置的模块。

2023-03-27 16:48:44 511

原创 DeepChem的作用、安装、代码示例

_future__是一个Python模块,用于导入一些未来版本的Python特性,以便在当前版本中使用。例如,可以使用__future__模块导入print_function特性,使得print语句在Python 2和3中保持一致。low_data.py,使用TensorGraph API训练一个低数据模型来预测化合物的毒性的示例代码。要使用__future__模块,只需在Python文件的开头导入所需的特性即可。使用deepchem进行药物发现的python示例代码。Featurizer对象。

2023-03-23 15:33:13 1583

原创 怎么使用openbabel的pybel?

Pybel 提供了一个简单的 API 用来链接 Open Babel SMARTS pattern 匹配.。使用ob的分子产生相应附加数据的对象(字典),其实用途不大,更常用mol.data。特征返回字典对象,可用来获得和编辑与分子相关的数据 ( 是。特征可获得任何与分子有关的“unit cell”数据(特征提供了分子中所有Atoms的列表。对象,但可当作普通的字典对象)。

2023-03-19 19:55:09 2454

原创 用Pymol的pythonAPI来获取原子所属残基的信息

GUI > pymol的工作路径改为脚本所在的文件夹,在GUI的命令行中输入@script.pml 或者 run script.py。2.打开GUI>直接将 pml/py script 拖拽进 pymol window。4.打开GUI> file > RUN Script…1.打开终端,输入:pymol pml文件/py文件。例如:将所选结构中的obj的名字一个一个打印出来。

2023-03-15 16:20:34 674

转载 ProtTrans:使用迁移学习利用自监督模型理解蛋白质“语言”

其中,factorized embedding parameterization通过引入一个维度较小的隐藏层,将参数因式分解,达到减少参数的目的,cross-layer parameter sharing,模型中全连接层、注意力层的参数均是共享的,也就是 ALBERT 依然有多层的深度连接,但是各层之间的参数是一样的。蛋白质的一维序列决定蛋白质的三维结构。,把所有任务都转化成一种形式,用同样的模型,同样的损失函数,同样的训练过程,同样的解码过程来完成所有 NLP 任务(Text-to-Text)。

2023-03-07 18:24:39 1858

原创 pymol也可以录制“宏”操作?

参考http://pymol.sourceforge.net/newman/user/S0210start_cmds.html,简单点说就是先用log_open log1.-open-source -c conda-forge 安装,然后就可以在python中import了。创建一个日志文件,然后不管是命令行还是鼠标操作都会保存在这个文件里。对了,在conda中,可以用 conda install。

2023-03-01 17:07:30 320

原创 前向选择的代码实现(Forward Selection)

【代码】前向选择的代码实现(Forward Selection)

2023-02-27 22:50:48 315

原创 为什么更推荐你用copy.deepcopy(),而不仅仅是copy()?

在使用copy.copy()复制嵌套的[‘A’, ‘B’, [‘d’, ‘e’, ‘f’], [‘x’, ‘y’]],然后改变嵌套列表中的值是,会影响到源列表的值。

2023-02-22 02:00:23 82

转载 Q-Learning和epsilon-greedy算法

(事先有一个Q表,在实际代码中到一个新状态,要检查是否在Q表中,如果state不存在就新建一行)

2023-02-08 17:30:33 737

原创 C++的数组(定义和应用)

所谓数组,是有序的元素序列。如将有限个类型相同的变量的集合命名,那么这个名称就是数组名。数组是用于存储多个相同类型数据的集合。

2023-02-04 20:02:14 2785

原创 【tensor】条件筛选,改变张量中特定条件的数值

【代码】【tensor】条件筛选,改变张量中特定条件的数值。

2023-02-03 11:25:14 368

原创 【C++】多重for循环解决枚举问题

需要注意的是,由于输出要从A-F的顺序输出,而只有字母为1时才会被当作犯人输出,因此写for循环的时候要注意位置,使得最先遍历A==1的情况。本题答案不唯一,请编程找出所有可能的凶手。并按A-F的顺序逐行输出。E:其他五个人中,只有A和D说了真话。他们中只有一半说了真话,凶手只有一个。B:A、C中有一个是罪犯。

2023-01-27 22:43:53 371

转载 爬虫 requests.post()和requests.get()

python中并没有json类型这一说法,通过json.dumps()转换的字典对象,最后得到的是一个字符串对象,在python中json格式的数据实际上就是一个字符串。虽说 .json在python中是以字符串的类型存在的,但是通过str()函数所得到的结果和 json.dumps()方法的结果是不相同的。如果data传递的参数为字符串,如:json.dumps(payload),则request对参数进行url编码,Content-Type的值为None,

2023-01-26 12:53:05 437

原创 【Pytorch】稀疏矩阵的表示与加减运算

有大量0元素的时候,我们可以使用坐标形式存储稀疏矩阵。

2023-01-16 23:24:35 899

原创 GCC简介

这也符合一般系统开发的规律:提供一个最基本的系统 (Linux内核),再提供一个扩展其功能的工具(GCC),借助于GCC编译的各种软件来丰富系统的功能。但随着GCC功能的不断扩充,现在其已经可以编译C++、Fortran、Pascal、Objective-C、Java,以及Ada等许多种类的语言了。这是最为关键的步骤,在该阶段,ld 会将各程序的执行代码放置在程序的适合位置,同时,程序调用的库函数也会以适当的方法设置调用接口。●编译是调用cc来实现的,它是源文件变为后缀为.o的目标文件的过程。

2023-01-14 18:20:34 544

定时编辑器软件TimeEditor压缩包

定时编辑器软件TimeEditor压缩包

2023-11-27

RDKit安装途中可能无法下载的插件,可以自己手动编译安装

RDKit安装途中可能无法下载的插件,可以自己手动编译安装

2023-07-14

源码编译安装RDKit时会遇到这个文件无法下载,所以需要手动编译安装添加到系统的环境变量

源码编译安装RDKit时会遇到这个文件无法下载,所以需要手动编译安装添加到系统的环境变量

2023-07-14

约瑟夫环问题解决方案(cpp源代码)

解决约瑟夫环的C++源代码,直接编译运行即可。

2023-02-12

pip安装pytorch的wheel文件(CUDA11.7 python3.10)

torch.cuda.is_available()返回false? pytorch如用清华源和conda指令安装,则下载的是cpu版本,须先将环境的“pytorch、pytorchvision、pytorchaudio“六个相关包删除,然后去pytorch官网用pip安装

2022-11-03

mol.py

mol.py

2021-12-29

【格式转换python脚本】将avi格式转为mp4格式(可修改套用)

可以将文件的格式转换为另一种格式,从而避免了下载各种商业软件。

2021-12-04

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除