生物信息
hzau_yang
华农研究僧
展开
-
plink格式的坑
plink格式的坑1当我使用plink格式文件通过emmax进行全基因组关联分析后,想看基因型与表型之间的正负关联关系。于是,我天真的认为基因型tped文件中的“2 2”就是1/1,“1 1”就是0/0。结果对应到vcf文件中,发现怎么着都对不上,然后我通过仔细研究bfile的bim格式文件,明白plink在转12基因型时,将第一个出现的等位基因视为1,第二次出现的视为2。也就是说22不一定是啥...原创 2020-03-25 21:49:48 · 1580 阅读 · 2 评论 -
PINDEL检测结构变异
PINDEL检测结构变异输入: 1.配置文件 : simulated_sample_1.bam 250 SAMPLE1 simulated_sample_2.bam 250 SAMPLE2 simulated_sample_3.bam 250 SAMPLE3 注:bam文件必须samtools index建立索引 pindel -i -f原创 2017-06-12 22:11:45 · 4574 阅读 · 0 评论 -
edgeR的使用
edgeR包是进行RNA-seq数据分析非常常用的一个R包。该包需要输入每个基因关于每个样本的reads数的数据,每行对应一个基因,每一列对应一个样本。建议使用htseq-count进行统计,输出文件即可直接使用。如果需要算RPKM,需要自己统计基因长度信息。原创 2017-09-27 22:41:00 · 32342 阅读 · 4 评论 -
plink做SNP筛选和GWAS
plink解决三个小问题原创 2017-09-21 15:23:42 · 18379 阅读 · 0 评论 -
快速从NCBI下载sra数据
1.下载并安装:wget http://download.asperasoft.com/download/sw/connect/3.7.2/aspera-connect-3.7.2.141527-linux-64.shsh aspera-connect-3.7.2.141527-linux-64.sh把一些输入文件放到主目录:cp ~/.aspera/connect/etc/asperaweb_i原创 2017-08-29 20:54:46 · 7497 阅读 · 0 评论 -
exonerate注释
输入文件:基因组的fasta文件,近缘物种的蛋白序列输出文件:近缘物种比对到基因组,注释出来的gff3文件,该文件可以用于作为基因组最后汇总注释的证据之一,但一般权重不如转录组数据流程:1.每个样本切成n个文件,并行提交任务split_exonerate.sh脚本fa=$1pep=$2i=$3n=$4exonerate -t $fa -q $pep --querychunkid ...原创 2019-08-22 09:34:51 · 6118 阅读 · 3 评论 -
HiCexplorer处理Hi-C数据
这篇算是hicexplorer官网手册的简单罗列,加上一些自己使用的心得(不断修正中)原创 2019-08-31 20:06:37 · 12705 阅读 · 2 评论 -
改bam文件的样本id
问题描述:有时经常遇到重测序的数据加测的问题,或者NCBI上下载的数据中一个样本测了几个库,这个时候一个样本就会有两对或多对fastq文件。如果你把每个样本分别比对,使用了不同的ID,那么合并之后的ID就需要重新修改成样本名,才能进行后续的call SNP的工作。干这个事儿的主要有两个工具,samtools和picard。输入数据:使用samtools merge合并之后的bam文件samto...原创 2019-09-22 14:27:20 · 4131 阅读 · 0 评论