workLog:序列的前处理 cutadapt

最新推荐文章于 2022-11-04 11:29:11 发布

lamovrevx

最新推荐文章于 2022-11-04 11:29:11 发布

阅读量321

点赞数

分类专栏： worklog

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lamovrevx/article/details/106078883

版权

博客介绍了NGS序列比对前的处理步骤，特别是使用cutadapt进行序列修剪。作者提到序列有正反两端及不同尾巴，通过seqkit排序后分割成多份，并使用cutadapt针对特定酶切位点进行trim操作，以优化比对。通过参考两篇教程，成功处理序列，得到满意结果，并能通过trim比例推算测序中丢失的序列数量。

摘要由CSDN通过智能技术生成

NGS序列比对前的处理工作

除了之前merge，拿QC分数过滤（已经忘了是怎么做的），还有一些其他的处理要做。

序列有正反两端，还有不同的3’,5’的尾巴，不处理不足以平民愤。

水平太有限了，10E7的序列也不知道怎么统计和比对。反正也是要找相同的序列，用seqkit发现有一个sort功能（sort的规则没看明白），-s 按seq sort，干就完了。

seqkit sort -s outM.fa -o sortAll.fa

然后split成一百份试试看ho。

seqkit split -p 100 sortAll.fa

多了一个文件夹，里面文件后缀001-100的
但是stats看一下，前面和后面的文件seq length都是250-490，不过aaa开头的都在前半，51的一半（51_5）都是反向序列，后面都是cat…开头的正向序列

计划拿酶切位点trim，正向序列是ccatgg…gcggccgc

安装cutadapt去处理序列
参考：https://www.jianshu.com/p/4ee2f4d2292f
https://www.cnblogs.com/freescience/p/7277564.html

$ conda

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
workLog:序列的前处理 cutadapt

NGS序列比对前的处理工作除了之前merge，拿QC分数过滤（已经忘了是怎么做的），还有一些其他的处理要做。序列有正反两端，还有不同的3’,5’的尾巴，不处理不足以平民愤。水平太有限了，10E7的序列也不知道怎么统计和比对。反正也是要找相同的序列，用seqkit发现有一个sort功能（sort的规则没看明白），-s 按seq sort，干就完了。seqkit sort -s outM.fa -o sortAll.fa然后split成一百份试试看ho。seqkit split -p 100 so
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。