自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

转载 【转】正则表达式 文本处理三剑客的总结

0 正则表达式的基础^               行首标识$                篇尾标识或行尾标识.                代表任意一个字符?               代表前趋字符的一次出现*               代表0个或多个前趋字符出现[1-9]          代表一个属于1-9的字符[^1-9]  

2015-08-18 15:07:56 467

原创 提取最长转录本的代码

1.最长转录本:就是gene的id相同,但是序列的长度不一样,应该挑选出序列最长作为后面的分析下面就是一个转录本的id文件,都是来自同一个gene,但是转录本的id和长度均不相同分析:发现除了第4列表示的基因id相同以外,其他的列均不相同。2.过滤最长转录本的编程思路:     考虑到绵羊的转录本的id的复杂性,主要按一下几个步骤来实现:step1: 读取转录本

2015-08-09 19:19:18 8678

原创 如何用awk过滤最后一行的?

最近需要对fasta文件的id进行处理,输入的ID格式如下:而我要处理成:也就是过滤文件的最后一列,目前过滤文件的最后一列的方法有如下:(1) awk '{print $1"\t"$2"\t"$3"\t"$4"\t"$5}' 解析:因为该文件有六列,过滤最后一列也就是只打印前五列,但是存在的问题是:awk打印出来的第一列和第二列之间的空格数对应不起来(2

2015-08-09 17:51:39 9017 1

原创 如何统计id很复杂的fasta文件的长度?

对于一般的fasta文件的格式是:>chr1AAGCCATCCGG但是最近两天遇到id很复杂的fasta,对于这样的fa文件用现有的脚本却统计错误原本人的hg38染色体有23条染色体,但是统计出来却只有一条染色体的长度:因此,需要重新修改length.pl

2015-08-04 15:19:13 1884

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除