viancheng-CSDN博客

原创根据gff/gtf等注释文件取负链上的序列：先反向互补染色体再截取？还是先截取区间再反向互补序列？

最近需要根据注释文件在基因组上截取序列，突然想到一个问题：对于下面这样在负链上的基因，我们是先将整条染色体反向互补再截取对应区间？还是先截取对应区间再反向互补呢？首先亮出答案：先截取区间，再反向互补。比如上面的ALK基因，先截取chr2上的29415640-30144452区间，再反向互补即得到ALK基因的碱基序列。验证过程：方法一：bedtools工具包可以根据bed文件提取区间序列，这里以上面的ALK基因为例试一下：1.首先创建一个bed文件命名为AKL.bed，其中文件第6列可以指

2020-12-22 16:45:36 2797

原创利用conda安装包、卸载包、升级包、查看包信息等操作

conda下载包是通过一些chanel来访问下载的，原本内置的有一些chanel，另外一些包需要自己添加下载所需的chanel。1.查看chanel：conda config --show2.添加chanel：conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/3.删除chanel：conda config –remove channels https://mir

2020-11-20 15:38:50 39564 1

原创 R语言read.table后header的数字前加上X，-符号被自动替换为.符号的处理办法

R在read.table的时候默认check.names=TRUE，此时读入成dataframe的时候会自动更正表头中数字开头的字符，所以想保留原始的表头将check.names设置为FALSE即可：df <- read.table(file, sep='\t', header=TRUE, check.names=FALSE)更多生信知识关注：...

2020-09-16 14:50:08 5206 2

原创 awk求和，求平均数，求最大值最小值

awk求和：cat file.txt | awk '{sum+=$1}END{print "sum = "sum}'awk求均值：cat file.txt | awk '{sum+=$1} END {print "Average = "sum/NR}'awk求最大值：cat file.txt | awk 'BEGIN {max = 0} {if ($1>max) max=$1} END {print "Max = "max}'awk求最小值：cat file.txt

2020-09-16 14:41:42 277

原创 R和pandas中的数据框处理操作汇总

最近除了画图就是做统计分析，发现R和pandas对于大数据处理十分方便，且语法上有相似之处。有的时候脑袋瓜子不灵光一迷糊参数就写错了，因此这里记录整理一下，方便日后查看。拖到最后可以看到一些常见问题的处理方法。1.数据读入R语言：read.table(file, sep='\t', header=TRUE/FALSE, check.names=TRUE/FALSE, skip=0, nrows=10, row.names=, col.names=)header：逻辑值，为TRUE则将第

2020-09-16 08:49:32 1566

原创 python3解析json文件

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。正常打开来看，样子有点像字典的嵌套的嵌套的嵌套...比较适合记录很多维度的数据。想要快速解析json文件，可以在python3中可以利用json模块对文件进行解析。这个模块支持json到python的双向解析。详细帮助文档：https://docs.python.org/3/library/json.htmlimport jsonjson解码后与pyt.

2020-07-01 14:54:19 922

原创改变bam文件header的方法：samtools reheader和picard AddOrReplaceReadGroups

介绍两种更改bam文件header的方法：1.Samtools工具的reheader方法；2.Picard软件的AddOrReplaceReadGroups方法；两种方法有什么区别呢？Samtools仅能修改header信息，但是picard不仅能修改header信息，还可以用户自定义添加read group信息。所以如果你没有什么高级的需求用samtools就可以（因为速度更快）。最近测试svaba的时候发现，如果bam文件header的染色体顺序和reference的染色...

2020-07-01 14:49:16 8503

原创 phyper函数计算的显著性到底是什么？

最近做项目遇到一个有趣的问题：有135个肺癌患者，已知这些患者的临床表征（性别、年龄、是否吸烟等），在计算中发现了EGFR基因在队列中显著突变，现在想知道某个临床表征（比如吸烟）对EGFR基因的突变有没有显著的影响？虽然已有文献证明了吸烟对于EGFR突变率和突变谱的影响，这里为了说明证明方法，还是以吸烟这个表征作为例子来举例说明。这个问题类似于抽样检查的问题：工厂生产了N个零件，其中有M个零件是次品，在一次抽样调查中随机抽取n个零件，其中有m个零件是次品，问这次的抽样检查是否合格？也就是..

2020-07-01 14:43:30 4278

原创 linux下无法删除目录，Device or resource busy报错解决方法

清理目录的时候发现删除文件夹时报错：rm: cannot remove ‘.nfs00000024d296fc2f00086d4d’: Device or resource busyrm: cannot remove ‘.nfs00000024d297fc2f00086d4b’: Device or resource busyrm: cannot remove ‘.nfs00000024d2983c2f00086d4c’: Device or resource busy原因：文件被其他进程占.

2020-05-27 10:20:29 37497 3

原创利用GATK4.1 mutect2寻找体细胞突变（SNV和INDEL）

今天梳理一下最最最最（最X100）常用的mutect2体细胞变异分析流程。主要用来分析肿瘤配对样本，寻找体细胞突变比如SNV和INDEL。官网上已经有了详细的英文版教程。软件版本：GATK4.1.1.0官网教程：https://gatk.broadinstitute.org/hc/en-us/articles/360035894731-Somatic-short-variant-discovery-SNVs-Indels-看下分析的流程图，然后我们从bam文件出发分步讲解：现..

2020-05-25 14:31:50 8817 1

原创利用GISTIC2.0整合队列CNV拷贝数变异分析结果

今天我们学习一个拷贝数变异的整合软件——GISTIC2。注意，这和软件本身并不做CNV calling，而是主要用于检测一组样品中显着扩增或缺失的基因组区域（明白一点说就是你需要提供一批样本中的每个样本的CNV检测结果，这个软件经过呼啦呼啦显著性计算会告诉你这一批样本中显著扩增和缺失的是哪些区域）。这个是癌症基因组CNV分析中十分常见也十分必要的内容。1.软件安装注意：a.软件包没有打包在一个文件夹下，所以第2步新建了一个GISTIC2文件夹，请在该文件夹下解压源文件；b.第5、6步安.

2020-05-25 14:23:57 15694 8

原创如何把vcf文件转换成maf文件格式？vcf2maf一键解决！

小胖友，你是否有很多问号，为什么别人都在做群体cohort突变瀑布图了，你还连个输入文件格式都转换不好？做肿瘤基因组分析的胖友肯定很熟悉vep软件了，体细胞突变检测结果下来跑个vep，竖线分割长列信息cut grep awk split一顿操作猛如虎，最后啥也没搞明白是常态。。想用R包可视化一下，发现输入文件格式需要maf格式，那今天就先讲这个格式转换吧。下次再更画图的方法。首先打开你高贵高级高雅的谷狗浏览器，下载vcf2maf软件：下载地址：https://github.com..

2020-05-25 12:00:03 8609

viancheng的博客