gatk
检测SNPs的工作大多数都是重复性的命令,众所周知,重测序数据少则几百个,多的参考人类基因组。将gatk pipeline
嵌套入循环脚本中进行工作无疑是最高效的做法(但过程一旦出错就得各种debug)。一开始为了方便,我是直接使用conda
的安装方法,但是在脚本内反复切换环境常会出错(大多数都是我的操作不当),为了解决这一麻烦,不得不自己安装编译版……
1 更新jdk
1.1 下载
通过gatk
的github主页了解其所需环境,以我们的服务器为例,只有java jdk的版本较低,以此环境运行gatk的部分功能就会报错,特别是picard.jar
模块的功能。
直接点击github主页提供的链接地址,获得下载链接:
下载完成后将其上传至服务器并解压,之后就会获得jdk-17.0.7+10
名字类似的文件夹。
1.2 配置环境
解压完之后查看java版本还是会显示旧版的信息,这是因为主机系统配置默认的java还是旧版的。通过配置用户的全局变量即可更改默认java。
编辑用户主目录下的.bashrc
:
vi .bashrc
在自定义变量区域加入以下内容:
export JAVA_HOME=~/jdk-17.0.7+10 #注意此目录需与jdk解压位置一致
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
至此,jdk
的安装配置正式完成,查看其版本发现其已更改:
PS:因为我的jdk是之前装好的,所以是0.6版
2 安装gatk
后面安装gatk就是按部就班的参照github主页的引导来:
首先,将gatk的库克隆到自己目录下:
git clone https://github.com/broadinstitute/gatk.git
然后进入目录编译就可以了:
cd gatk
./gradlew bundle
完成后,将安装路径添加到全局变量,即可使用命令调出tools list
:
gatk --list
此时便安装成功了。