软件
hzau_yang
华农研究僧
展开
-
plink格式的坑
plink格式的坑1当我使用plink格式文件通过emmax进行全基因组关联分析后,想看基因型与表型之间的正负关联关系。于是,我天真的认为基因型tped文件中的“2 2”就是1/1,“1 1”就是0/0。结果对应到vcf文件中,发现怎么着都对不上,然后我通过仔细研究bfile的bim格式文件,明白plink在转12基因型时,将第一个出现的等位基因视为1,第二次出现的视为2。也就是说22不一定是啥...原创 2020-03-25 21:49:48 · 1544 阅读 · 2 评论 -
PINDEL检测结构变异
PINDEL检测结构变异输入: 1.配置文件 : simulated_sample_1.bam 250 SAMPLE1 simulated_sample_2.bam 250 SAMPLE2 simulated_sample_3.bam 250 SAMPLE3 注:bam文件必须samtools index建立索引 pindel -i -f原创 2017-06-12 22:11:45 · 4471 阅读 · 0 评论 -
edgeR的使用
edgeR包是进行RNA-seq数据分析非常常用的一个R包。该包需要输入每个基因关于每个样本的reads数的数据,每行对应一个基因,每一列对应一个样本。建议使用htseq-count进行统计,输出文件即可直接使用。如果需要算RPKM,需要自己统计基因长度信息。原创 2017-09-27 22:41:00 · 32108 阅读 · 4 评论 -
plink做SNP筛选和GWAS
plink解决三个小问题原创 2017-09-21 15:23:42 · 18071 阅读 · 0 评论 -
exonerate注释
输入文件:基因组的fasta文件,近缘物种的蛋白序列输出文件:近缘物种比对到基因组,注释出来的gff3文件,该文件可以用于作为基因组最后汇总注释的证据之一,但一般权重不如转录组数据流程:1.每个样本切成n个文件,并行提交任务split_exonerate.sh脚本fa=$1pep=$2i=$3n=$4exonerate -t $fa -q $pep --querychunkid ...原创 2019-08-22 09:34:51 · 5771 阅读 · 3 评论 -
改bam文件的样本id
问题描述:有时经常遇到重测序的数据加测的问题,或者NCBI上下载的数据中一个样本测了几个库,这个时候一个样本就会有两对或多对fastq文件。如果你把每个样本分别比对,使用了不同的ID,那么合并之后的ID就需要重新修改成样本名,才能进行后续的call SNP的工作。干这个事儿的主要有两个工具,samtools和picard。输入数据:使用samtools merge合并之后的bam文件samto...原创 2019-09-22 14:27:20 · 3740 阅读 · 0 评论