关于prefetch下载Sra数据报错

其实我自己使用prefetch工具以来,遇到的错误并不多,大多是由于网络环境导致的,在网络上查询也可以看出,大多数情况下prefetch的问题还是出在网络环境上。但有些问题并非由于网络引起,而是自己数据的问题。
我在批量下载约100个数据时,遇到的报错信息如下:
在这里插入图片描述
报错提供了3个信息点:

  1. 无法获取到SRRid,即prefetch无法识别txt文件中给出的id信息。
  2. 虽然大多数样本无法下载,但仍有几个可以正常下载。
  3. 虽然在脚本中不可下载,但手动输入prefetch SRR123456没有问题。

这个问题着实令我苦恼,在查询了一些资料,尝试更换版本等一系列操作后,终于在Biostars中找到了答案。
在这里插入图片描述
于是我发现我的id文件显示如下:
在这里插入图片描述
可以看到,大多数id后是^M$结尾,极少数是$结尾,也就是说是特殊符号的存在导致prefetch无法正确识别Sra 🆔id。进一步查询发现,这是由于linux和windows对于换行符的不同表示导致的,windows中表示为\r\n,linux中则为\n。

解决方法
有多种方法可以解决这个问题,最直接的就是把^M替换成空,但考虑到我们id样本的处理不会直接在终端进行,需要office等文本处理软件的参与,因此在从excel过渡到txt的过程建议复制粘贴,而不是将excel文件另存为txt文件,这样基本可以避免格式问题造成的prefetch错误。

**

更新

**
今天使用prefetch再次遇到问题,如下:
在这里插入图片描述
解决方法
更改批量下载的脚本,加上删除每个SRR文件夹下的lock文件这一步,代码如下(以shell脚本为例):

cd sra_data
cat id-list.txt | while read line 
do
        IFS="\t"
        SRR=$(echo $line | awk '{print $4}')
        IFS=";"
        SRRid=($SRR)
        for srr in ${SRRid[@]}
        do
                cd $srr
                rm -f $srr\.sra.lock
                cd ..
                prefetch $srr
                #prefetch --max-size 50G $srr 这里可以更改下载数据的大小限制,默认是20G
        done
done
  • 5
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值