参考生信技能树
激活chipseq环境
conda activate chipseq
准备配置文件
点击一个样本,点All runs
选择旧版本,再点击runInfo table下载SraRunTablr.txt
重命名为sra.table, 用xftp上传的服务器sra目录下
查看第一行,把制表符改为换行符,每一列变成每一行, 然后查看行号
head -1 sra.table | tr '\t' '\n' |cat -n
这个方法适合列数多的情况,选择取哪一列
也可以肉眼看
less -S sra.table
也容易数晕
也可以随缘取出看看
cut -f 7,10 sra.table
这里我直接本地电脑整理好对应关系更方便,有重复的写成_1 _2
RNAPII_S5P_1 SRR391032RNAPII_S5P_2 SRR391033RNAPII_S2P_1 SRR391034RNAPII_S7P_1 SRR391035RNAPII_8WG16_1 SRR391036RNAPII_8WG16_2 SRR391037RNAPII_S2P_2 SRR391038RNAPII_S2P_3 SRR391039RNAPII_S7P_2 SRR391040H2Aub1_1 SRR391041H2Aub1_2 SRR391042H3K36me3_1 SRR391043H3K36me3_2 SRR391044Control_1 SRR391045Control_2 SRR391046Ring1B_1 SRR391047Ring1B_2 SRR391048Ring1B_3 SRR391049RNAPII_S5PRepeat_1 SRR391050
用xftp上传到服务器上
有了上面的配置文件就可以批量sra转fq文件
定义软件目录、和输出目录
dump='/home/data/vip30/miniconda3/envs/chipseq/bin/fastq-dump'analysis_dir='~/data/epi/chipseq/GSE34518/raw'
cat config|while read id;do echo $idarr=($id)srr=${arr[1]}sample=${arr[0]}# 单端测序数据的sra转fasqnohup $dump -A $sample -O $analysis_dir --gzip --split-3 sra/$srr & done
原来代码是 sra/$srr.sra ,考虑到我下的sra文件,没有.sra后缀,我就写成sra/$srr
结果报错,--split-3 提示不存在这样参数,于是我改成了--split-e, 看文档说可以自动判断单端、双端测序
然后又报错说 注释有问题,我怀疑 -A $sample 这个参数没有成功把注释信息取出来,就是config文件准备有问题,我猜测
没办法,另外找了个简单点办法,只是没有改名字
dump='/home/data/vip30/miniconda3/envs/chipseq/bin/fastq-dump'nohup ls SRR3910* |while read id; do $dump --gzip --split-e $id ; done &
下载完毕
移动到raw目录
mv SRR*.fastq.gz ~/data/epi/chipseq/GSE34518/raw