linux 删除20日前数据,linux的20题

1.在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。

pwd

ls

mkdir practice

cd practice

mkdir -p 1/2/3/4/5/6/7/8/9

ls

2.在创建好的文件夹下面,比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ,里面创建文本文件 me.txt

touch me.txt

3.在文本文件 me.txt 里面输入内容:

vim me.txt

复制粘贴内容:

Go to: http://www.biotrainee.com/

I love bioinfomatics.

And you ?

esc-----:-----输入wq 保存并退出

4.删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt

rm -r ~/test/1

5.在任意文件夹下面创建 folder1~5这5个文件夹,然后每个文件夹下面继续创建 folder1~5这5个文件夹

mkdir -p folder_{1..5}/folder_{1..5}

6.在第五题创建的每一个文件夹下面都 创建第二题文本文件 me.txt ,内容也要一样。(这个题目难度超纲,建议一个月后再回过头来做)

7.再次删除掉前面几个步骤建立的文件夹及文件

rm -r practice

grep -n 'H3K4me3' test.bed

wget http://www.biotrainee.com/jmzeng/rmDuplicate.zip

unzip rmDuplicate.zip

tree rmDuplicate

10.打开第九题解压的文件,进入 rmDuplicate/samtools/single 文件夹里面,查看后缀为 .sam 的文件,搞清楚 生物信息学里面的SAM/BAM 定义是什么。

cd rmDuplicate/samtools/single

vim 查看sam和bam文件

sam分为两部分,注释信息(header section)和比对结果部分(alignment section)

比对结果部分(alignment section),每一行表示一个片段(segment)的比对信息,包括11个必须的字段(mandatory fields)和一个可选的字段,字段之间用tag分割。必须的字段有11个,顺序固定,不可用时,根据字段定义,可以为’0‘或者’*’

1 QNAME,序列的名字(Read的名字)

2 FLAG, 概括出一个合适的标记,各个数字分别代表

3 RNAME,参考序列的名字(染色体)

4 POS,在参考序列上的位置(染色体上的位置)

5 MAPQ, mapping qulity 越高则位点越独特

6 CIGAR,代表比对结果的CIGAR字符串

7 RNEXT, mate 序列所在参考序列的名称; 下一个片段比对上的参考序列的编号,没有另外的片段,这里是’‘,同一个片段,用’=‘;

8 PNEXT, mate 序列在参考序列上的位置;下一个片段比对上的位置,如果不可用,此处为0;

9 TLEN,估计出的片段的长度,当mate 序列位于本序列上游时该值为负值。Template的长度,最左边得为正,最右边的为负,中间的不用定义正负,不分区段(single-segment)的比对上,或者不可用时,此处为0

10 SEQ,read的序列;序列片段的序列信息,如果不存储此类信息,此处为’‘,注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度;

11 QUAL,ASCII码格式的序列质量;序列的质量信息,格式同FASTQ一样。

可选的字段(field)

12 NM:i 经过编辑的序列

-13 MD:Z 代表序列和参考序列错配的字符串

14 AS:i 匹配的得分

11.安装 samtools 软件

conda install samtools

12.打开 后缀为BAM 的文件,找到产生该文件的命令。 提示一下命令是

cd rmDuplicate/samtools/single

ls

vim tmp.rmdup.bam

samtools view -h tmp.sorted.bam |grep '^@PG'|awk 'BEGIN{FS="\t"}{print $5}'|cut -d: -f2

"/home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2-align-s --wrapper basic-0 -p 20 -x /home/jianmingzeng/reference/index/bowtie/hg38 -S /home/jianmingzeng/data/public/allMouse/alignment/WT_rep2_Input.sam -U /tmp/41440.unp"

13.根据上面的命令,找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。

samtools view -h tmp.sorted.bam |egrep '^@S.*?(chr[XYM]\s+.*|chr[1-9]?[0-9]\s+).*'|wc -l

14.上面的后缀为BAM 的文件的第二列,只有 0 和 16 两个数字,用 cut/sort/uniq等命令统计它们的个数

samtools view tmp.rmdup.bam |cut -f2|sort |uniq -c

15.重新打开 rmDuplicate/samtools/paired 文件夹下面的后缀为BAM 的文件,再次查看第二列,并且统计

cd rmDuplicate/samtools/paired

samtools view tmp.rmdup.bam |cut -f2 |sort |uniq -c|sort -t' ' -nrk1,1

速度200K/s左右.

ls

unzip sickle-results.zip

17.解压 sickle-results/single_tmp_fastqc.zip 文件,并且进入解压后的文件夹,找到 fastqc_data.txt 文件,并且搜索该文本文件以 >>开头的有多少行?

unzip sickle-results/single_tmp_fastqc.zip

cd single_tmp_fastqc

ls

grep '^>>' fastqc_data.txt |wc -l

24

18.下载 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件,去NCBI找到TP53/BRCA1等自己感兴趣的基因对应的 refseq数据库 ID,然后找到它们的hg38.tss 文件的哪一行。

wget http://www.biotrainee.com/jmzeng/tmp/hg38.tss

grep 'NM_000546' hg38.tss

19.解析hg38.tss 文件,统计每条染色体的基因个数

grep -oE 'chr[0-9]{1,2}|chr[a-zA-Z]{1,2}' hg38.tss |sort |uniq -c

20.解析hg38.tss 文件,统计NM和NR开头的熟练,了解NM和NR开头的含义。

grep -oE '^(NM|NR)' hg38.tss |sort|uniq -c

NM:转录组产物的序列mRNA

NR:非编码的转录组序列ncRNA

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值