0. sdf格式分子文件简介
SDF(Structure Data File)格式是一种用于表示化学分子结构信息的文件格式,由MDL Information Systems(MDL)开发。它是一种纯文本格式,可以用来描述小分子、大分子、反应、光谱等多种化学信息。SDF格式在化学信息学和药物设计领域中得到了广泛的应用。
SDF文件的基本结构包括以下几个部分:
1. OpenBabel拆分sdf文件
使用openbabel来拆分大的sdf文件为单独的sdf文件,可下载安装openbabel
babel test_opt.sdf --split -aT -osdf
将会输出以每个分子第一行中定义的分子名称为file name
后期实测并不好用,很多sdf为空
2. shell脚本拆分含有多个sdf小分子的大文件
拆分大的sdf文件,并根据原始文件名依次加序号命名拆分后的文件,运行split_sdf.sh
脚本
bash split_sdf.sh test.sdf
split_sdf.sh
脚本的内容
# 读取文件
sdf_file=$1
# 创建split_sdf文件夹,存放拆分后的分子
mkdir -p split_sdf
# 初始化首行行数(start)和文件序号(j)
start=1
j=1
# 读取大的sdf文件中以`$$$$`为分割段落的行号作为拆分的段落,并在拆分后的sdf首行改写改分子的名称
for i in `cat ${sdf_file}|grep -n "\\$\\$\\$\\$"|awk -F : '{print $1}'`
do
name=`basename ${sdf_file} .sdf`
end=$i
sed -n "${start},${end}p" ${sdf_file} >split_sdf/${name}_${j}.sdf
sed -i "1c ${name}_${j}" split_sdf/${name}_${j}.sdf
start=`expr ${end} + 1`
((j=j+1))
done
3. 删除sdf文件中的分子属性信息
sdf文件中的分子属性如下所示
<r_lp_tautomer_probability>
1
3.1 sed删除所有属性
sed -i
可以直接修改原文件,请注意备份原文件。
sed -i '/>.*>/,+2d' test.sdf
3.1 OpenBabel 删除指定属性
babel -isdf test.sdf --delete “r_lp_tautomer_probability” -osdf test_delete.sdf
4. 修改分子集sdf文件中的分子名称
当分子集中的分子名为同一个时,拆分后的分子不好命名,因此选择修改分子集sdf文件内容。
以下示例中,test.sdf文件中所有的分子命名为sh.sdf,修改为sh-1.sdf、sh-2.sdf、sh-3.sdf以此类推的名字,修改后的结果写入modified_test.sdf文件。。
# -*- coding: utf-8 -*-
import re
def modify_and_write(filename, output_filename):
counter = 1 # 用于计数匹配到的"sh.sdf"
with open(filename, 'r') as file:
lines = file.readlines() # 读取所有行到列表
with open(output_filename, 'w') as outfile:
for line in lines:
# 使用正则表达式严格匹配整行内容为"sh.sdf"
if re.match(r'^sh\.sdf$', line.strip()):
modified_line = f'sh-{counter}.sdf\n' # 替换并添加换行符
counter += 1 # 递增计数器
outfile.write(modified_line) # 写入新文件
else:
outfile.write(line) # 将未修改的行写入新文件
# 调用函数并传入原始文件名和新文件名
modify_and_write('test.sdf', 'modified_test.sdf')
运行脚本:
python3 rename_sdf.py
split_sdf.sh的shell脚本拆分上述的test.sdf为单个sdf文件(懒得写python了,凑合的改了上面第二部分的shell代码)
# 参数读取sdf文件
sdf_file=$1
# 创建split_sdf文件夹,存放拆分后的分子
mkdir -p split_sdf
# 初始化首行行数(start)和文件序号(j)
start=1
j=1
# 读取大的sdf文件中以`$$$$`为分割段落的行号作为拆分的段落,并在拆分后的sdf首行改写改分子的名称
for i in `cat ${sdf_file}|grep -n "\\$\\$\\$\\$"|awk -F : '{print $1}'`
do
name=`basename ${sdf_file} .sdf`
end=$i
sed -n "${start},${end}p" ${sdf_file} >split_sdf/sh_${j}.sdf
start=`expr ${end} + 1`
((j=j+1))
done
运行脚本:
bash split_sdf.sh modified_test.sdf