linux 删除20日前数据,linux的20题

最新推荐文章于 2021-05-25 13:20:44 发布

weixin_39851809

最新推荐文章于 2021-05-25 13:20:44 发布

阅读量115

点赞数

文章标签： linux 删除20日前数据

1.在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。

pwd

mkdir practice

cd practice

mkdir -p 1/2/3/4/5/6/7/8/9

2.在创建好的文件夹下面，比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ，里面创建文本文件 me.txt

touch me.txt

3.在文本文件 me.txt 里面输入内容:

vim me.txt

复制粘贴内容:

Go to: http://www.biotrainee.com/

I love bioinfomatics.

And you ?

esc-----:-----输入wq 保存并退出

4.删除上面创建的文件夹 1/2/3/4/5/6/7/8/9 及文本文件 me.txt

rm -r ~/test/1

5.在任意文件夹下面创建 folder1~5这5个文件夹，然后每个文件夹下面继续创建 folder1~5这5个文件夹

mkdir -p folder_{1..5}/folder_{1..5}

6.在第五题创建的每一个文件夹下面都创建第二题文本文件 me.txt ，内容也要一样。(这个题目难度超纲，建议一个月后再回过头来做)

7.再次删除掉前面几个步骤建立的文件夹及文件

rm -r practice

grep -n 'H3K4me3' test.bed

wget http://www.biotrainee.com/jmzeng/rmDuplicate.zip

unzip rmDuplicate.zip

tree rmDuplicate

10.打开第九题解压的文件，进入 rmDuplicate/samtools/single 文件夹里面，查看后缀为 .sam 的文件，搞清楚生物信息学里面的SAM/BAM 定义是什么。

cd rmDuplicate/samtools/single

vim 查看sam和bam文件

sam分为两部分，注释信息(header section)和比对结果部分(alignment section)

比对结果部分(alignment section)，每一行表示一个片段(segment)的比对信息，包括11个必须的字段(mandatory fields)和一个可选的字段，字段之间用tag分割。必须的字段有11个，顺序固定，不可用时，根据字段定义，可以为’0‘或者’*’

1 QNAME,序列的名字(Read的名字)

2 FLAG, 概括出一个合适的标记，各个数字分别代表

3 RNAME,参考序列的名字(染色体)

4 POS,在参考序列上的位置(染色体上的位置)

5 MAPQ, mapping qulity 越高则位点越独特

6 CIGAR,代表比对结果的CIGAR字符串

7 RNEXT, mate 序列所在参考序列的名称; 下一个片段比对上的参考序列的编号，没有另外的片段，这里是’‘，同一个片段，用’=‘；

8 PNEXT, mate 序列在参考序列上的位置;下一个片段比对上的位置，如果不可用，此处为0；

9 TLEN，估计出的片段的长度，当mate 序列位于本序列上游时该值为负值。Template的长度，最左边得为正，最右边的为负，中间的不用定义正负，不分区段(single-segment)的比对上，或者不可用时，此处为0

10 SEQ，read的序列;序列片段的序列信息，如果不存储此类信息，此处为’‘，注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度；

11 QUAL，ASCII码格式的序列质量;序列的质量信息，格式同FASTQ一样。

可选的字段(field)

12 NM:i 经过编辑的序列

-13 MD:Z 代表序列和参考序列错配的字符串

14 AS:i 匹配的得分

11.安装 samtools 软件

conda install samtools

12.打开后缀为BAM 的文件，找到产生该文件的命令。提示一下命令是

cd rmDuplicate/samtools/single

vim tmp.rmdup.bam

samtools view -h tmp.sorted.bam |grep '^@PG'|awk 'BEGIN{FS="\t"}{print $5}'|cut -d: -f2

"/home/jianmingzeng/biosoft/bowtie/bowtie2-2.2.9/bowtie2-align-s --wrapper basic-0 -p 20 -x /home/jianmingzeng/reference/index/bowtie/hg38 -S /home/jianmingzeng/data/public/allMouse/alignment/WT_rep2_Input.sam -U /tmp/41440.unp"

13.根据上面的命令，找到我使用的参考基因组 /home/jianmingzeng/reference/index/bowtie/hg38 具体有多少条染色体。

samtools view -h tmp.sorted.bam |egrep '^@S.*?(chr[XYM]\s+.*|chr[1-9]?[0-9]\s+).*'|wc -l

14.上面的后缀为BAM 的文件的第二列，只有 0 和 16 两个数字，用 cut/sort/uniq等命令统计它们的个数

samtools view tmp.rmdup.bam |cut -f2|sort |uniq -c

15.重新打开 rmDuplicate/samtools/paired 文件夹下面的后缀为BAM 的文件，再次查看第二列，并且统计

cd rmDuplicate/samtools/paired

samtools view tmp.rmdup.bam |cut -f2 |sort |uniq -c|sort -t' ' -nrk1,1

速度200K/s左右.

unzip sickle-results.zip

17.解压 sickle-results/single_tmp_fastqc.zip 文件，并且进入解压后的文件夹，找到 fastqc_data.txt 文件，并且搜索该文本文件以 >>开头的有多少行？

unzip sickle-results/single_tmp_fastqc.zip

cd single_tmp_fastqc

grep '^>>' fastqc_data.txt |wc -l

18.下载 http://www.biotrainee.com/jmzeng/tmp/hg38.tss 文件，去NCBI找到TP53/BRCA1等自己感兴趣的基因对应的 refseq数据库 ID，然后找到它们的hg38.tss 文件的哪一行。

wget http://www.biotrainee.com/jmzeng/tmp/hg38.tss

grep 'NM_000546' hg38.tss

19.解析hg38.tss 文件，统计每条染色体的基因个数

grep -oE 'chr[0-9]{1,2}|chr[a-zA-Z]{1,2}' hg38.tss |sort |uniq -c

20.解析hg38.tss 文件，统计NM和NR开头的熟练，了解NM和NR开头的含义。

grep -oE '^(NM|NR)' hg38.tss |sort|uniq -c

NM：转录组产物的序列mRNA

NR：非编码的转录组序列ncRNA

weixin_39851809

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
linux 删除20日前数据,linux的20题

1.在任意文件夹下面创建形如 1/2/3/4/5/6/7/8/9 格式的文件夹系列。pwdlsmkdir practicecd practicemkdir -p 1/2/3/4/5/6/7/8/9ls2.在创建好的文件夹下面，比如我的是 /Users/jimmy/tmp/1/2/3/4/5/6/7/8/9 ，里面创建文本文件 me.txttouch me.txt3.在文本文件 me.txt 里面输...
复制链接

扫一扫