其实我自己使用prefetch工具以来,遇到的错误并不多,大多是由于网络环境导致的,在网络上查询也可以看出,大多数情况下prefetch的问题还是出在网络环境上。但有些问题并非由于网络引起,而是自己数据的问题。
我在批量下载约100个数据时,遇到的报错信息如下:
报错提供了3个信息点:
- 无法获取到SRRid,即prefetch无法识别txt文件中给出的id信息。
- 虽然大多数样本无法下载,但仍有几个可以正常下载。
- 虽然在脚本中不可下载,但手动输入
prefetch SRR123456
没有问题。
这个问题着实令我苦恼,在查询了一些资料,尝试更换版本等一系列操作后,终于在Biostars中找到了答案。
于是我发现我的id文件显示如下:
可以看到,大多数id后是^M$结尾,极少数是$结尾,也就是说是特殊符号的存在导致prefetch无法正确识别Sra 🆔id。进一步查询发现,这是由于linux和windows对于换行符的不同表示导致的,windows中表示为\r\n,linux中则为\n。
解决方法
有多种方法可以解决这个问题,最直接的就是把^M替换成空,但考虑到我们id样本的处理不会直接在终端进行,需要office等文本处理软件的参与,因此在从excel过渡到txt的过程建议复制粘贴,而不是将excel文件另存为txt文件,这样基本可以避免格式问题造成的prefetch错误。
**
更新
**
今天使用prefetch再次遇到问题,如下:
解决方法
更改批量下载的脚本,加上删除每个SRR文件夹下的lock文件这一步,代码如下(以shell脚本为例):
cd sra_data
cat id-list.txt | while read line
do
IFS="\t"
SRR=$(echo $line | awk '{print $4}')
IFS=";"
SRRid=($SRR)
for srr in ${SRRid[@]}
do
cd $srr
rm -f $srr\.sra.lock
cd ..
prefetch $srr
#prefetch --max-size 50G $srr 这里可以更改下载数据的大小限制,默认是20G
done
done