关于prefetch下载Sra数据报错

最新推荐文章于 2024-12-27 11:22:27 发布

Shannon.Y

最新推荐文章于 2024-12-27 11:22:27 发布

阅读量1.2w

点赞数 8

分类专栏：生信技能文章标签： linux windows 生物信息学

本文链接：https://blog.csdn.net/sakoko_/article/details/120697784

版权

生信技能专栏收录该内容

6 篇文章

订阅专栏

其实我自己使用prefetch工具以来，遇到的错误并不多，大多是由于网络环境导致的，在网络上查询也可以看出，大多数情况下prefetch的问题还是出在网络环境上。但有些问题并非由于网络引起，而是自己数据的问题。
我在批量下载约100个数据时，遇到的报错信息如下：
在这里插入图片描述
报错提供了3个信息点：

无法获取到SRRid，即prefetch无法识别txt文件中给出的id信息。
虽然大多数样本无法下载，但仍有几个可以正常下载。
虽然在脚本中不可下载，但手动输入prefetch SRR123456没有问题。

这个问题着实令我苦恼，在查询了一些资料，尝试更换版本等一系列操作后，终于在Biostars中找到了答案。
在这里插入图片描述
于是我发现我的id文件显示如下：

可以看到，大多数id后是^M$结尾，极少数是$结尾，也就是说是特殊符号的存在导致prefetch无法正确识别Sra 🆔id。进一步查询发现，这是由于linux和windows对于换行符的不同表示导致的，windows中表示为\r\n，linux中则为\n。

解决方法
有多种方法可以解决这个问题，最直接的就是把^M替换成空，但考虑到我们id样本的处理不会直接在终端进行，需要office等文本处理软件的参与，因此在从excel过渡到txt的过程建议复制粘贴，而不是将excel文件另存为txt文件，这样基本可以避免格式问题造成的prefetch错误。

更新

**
今天使用prefetch再次遇到问题，如下：
在这里插入图片描述
解决方法
更改批量下载的脚本，加上删除每个SRR文件夹下的lock文件这一步，代码如下（以shell脚本为例）：

cd sra_data
cat id-list.txt | while read line 
do
        IFS="\t"
        SRR=$(echo $line | awk '{print $4}')
        IFS=";"
        SRRid=($SRR)
        for srr in ${SRRid[@]}
        do
                cd $srr
                rm -f $srr\.sra.lock
                cd ..
                prefetch $srr
                #prefetch --max-size 50G $srr 这里可以更改下载数据的大小限制，默认是20G
        done
done