一. 下载数据
1. 下载DTI的数据
就用上一篇博客中的BidingDB
计算生物——Code_Pytorch框架——蛋白靶点小分子药物对接亲和力预测_CPU(07.11-07.22)-CSDN博客
2.下载DDI的数据
import tdc
print(dir(tdc))
from tdc.multi_pred import DDI
import pandas as pd
data = DDI(name='DrugBank')
# 获取数据集的分割
split = data.get_split()
# 设置显示最多20列
pd.set_option('display.max_columns', 20)
# 设置显示最多100行
pd.set_option('display.max_rows', 50)
# 打印数据集信息
print("训练集样本数量:", len(split['train']))
print("验证集样本数量:", len(split['valid']))
print("测试集样本数量:", len(split['test']))
# 将训练集转换为DataFrame并展示前5行
train_df = pd.DataFrame(split['train'])
print(train_df.head())
# 将验证集和测试集也转换为DataFrame并展示前5行
valid_df = pd.DataFrame(split['valid'])
print(valid_df.head())
test_df = pd.DataFrame(split['test'])
print(test_df.head())
# 将数据转换为 pandas DataFrame
combined_data = pd.concat([pd.DataFrame(split['train']),
pd.DataFrame(split['valid']),
pd.DataFrame(split['test'])])
# 将数据保存为 CSV 文件
combined_data.to_csv('drugbank_ddi.csv', index=False)
print("Combined BindingDB dataset saved as drugbank_ddi.csv.")
3. 下载PPI的数据
from tdc.multi_pred import PPI
import pandas as pd
data = PPI(name='HuRI')
# 获取数据集的分割
split = data.get_split()
# 设置显示最多20列
pd.set_option('display.max_columns', 20)
# 设置显示最多100行
pd.set_option('display.max_rows', 50)
# 打印数据集信息
print("训练集样本数量:", len(split['train']))
print("验证集样本数量:", len(split['valid']))
print("测试集样本数量:", len(split['test']))
# 将训练集转换为DataFrame并展示前5行
train_df = pd.DataFrame(split['train'])
print(train_df.head())
# 将验证集和测试集也转换为DataFrame并展示前5行
valid_df = pd.DataFrame(split['valid'])
print(valid_df.head())
test_df = pd.DataFrame(split['test'])
print(test_df.head())
# 将数据转换为 pandas DataFrame
combined_data = pd.concat([pd.DataFrame(split['train']),
pd.DataFrame(split['valid']),
pd.DataFrame(split['test'])])
# 将数据保存为 CSV 文件
combined_data.to_csv('HuRI_ppi.csv', index=False)
print("Combined BindingDB dataset saved as HuRI_ppi.csv.")
二. 建立环境
1.我的过程(不对,别跟着学,看我踩的坑就行)
【也可以直接跳过,看2】
可在网站中查到相关对应环境要求:Install and Setup — DGL 2.2.1 documentation
(感觉一般都能满足,事实证明感觉是不准的....后面吃大亏.........)
根据咱第一篇博客的方法下载好pytorch(这里用的还是python 3.8)计算生物学习——Code_PyTorch(06.15-06.19)_error 4 in libcupti.so.11.8-CSDN博客
(记住这个2.4.0+cu118,别跟着学,看到后面就懂了)
之后直接用:pip install dgl
把Error中提示说没装的都装上。(都用“pip install 名字”即可)
import dgl出现错误:
终端运行代码pip install pyyaml
结果又出现:
(pip install pydantic 解决)
出现新错误:FileNotFoundError: Cannot find DGL C++ graphbolt library at /home/embark/anaconda3/envs/HGraph/lib/python3.8/site-packages/dgl/graphbolt/libgraphbolt_pytorch_2.4.0.so
查看文档:Install and Setup — DGL 2.2.1 documentation
发现可能不能直接用pip install dgl安装
pip uninstall dgl
确定一下系统是Linux和CUDA=11.8
import torch as th
import pandas as pd
if th.cuda.is_available():
print("CUDA is available")
print("CUDA version:", th.version.cuda)
print("Number of CUDA devices:", th.cuda.device_count())
for i in range(th.cuda.device_count()):
print(f"Device {i}: {th.cuda.get_device_name(i)}")
else:
print("CUDA is not available")
点击下面的网址,选择对应的版本进行安装
中途出错停了
我发现是我忽略了pytorch的版本,这里并没有2.4.0的版本.....
2.装dgl成功的步骤
(1)我要重新搞个环境了........(苦兮兮 哭兮兮)
conda create --name HGraph2 python=3.8
conda activate HGraph2
(2) 下载torch【注意是2.3.0版本】
pip install torch==2.3.0+cu118 torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu118
提示中没装的包都装上~
(3) 下载dgl
打开网址,查找可以下载的dgl【每一行都对应好!】
确定OS和CUDA的方法上面有
pip install dgl -f https://data.dgl.ai/wheels/torch-2.3/cu118/repo.html
运行代码import dgl,会提示说有包没安装,安装上就行~
运行成功~!