linux里面ped文件排序,GWAS 分析常用文件格式总结

转自:http://www.cnblogs.com/freemao/p/6414898.html

一, Hapmap Format

前11列是SNP的attributes, 其余列是 nucleotides observed at each SNP for

each individuals。tab 分隔.

第一行是header

每一行代表一个SNP。

Genotypic data 可以是double bit 也可以是single bit(IUPAC code)。

a4c26d1e5885305701be709a3d33442f.png

missing data 用NN for double bit 或者N for single bit.

a4c26d1e5885305701be709a3d33442f.png

a4c26d1e5885305701be709a3d33442f.png

二, Numeric format

由于genotype file (GD file)里没有SNP位置信息,因此需要一个额外的map file(GM

file)。GM file里的SNP顺序需要个GD中的保持一致。

对于GD file:

第一行是header,包括SNP name。

每一行代表的是individual 而不是 SNP。 和hapmap正好相反。0代表纯合00, 1代表杂合01,

2代表纯合11.

a4c26d1e5885305701be709a3d33442f.png

GM file:

a4c26d1e5885305701be709a3d33442f.png

三, PLINK PED File Format

1, ped 和 map

ped 文件必须 accompanied by a map file

ped文件没有header line.

每行有6 + 2V Fields. V 是

SNP的数目。

前6行:

Family ID ('FID')

Within-family ID (sample ID) ('IID'; cannot be '0')

Within-family ID of father (Paternal ID)('0' if father isn't in

dataset)

Within-family ID of mother (Maternal ID)('0' if mother isn't in

dataset)

Sex code ('1' = male, '2' = female, '0' = unknown)

Phenotype value ('1' = control, '2' = case,

'-9'/'0'/non-numeric = missing data if case/control)

第7th 8th 是第一个SNP的alleles. 9th, 10th

是第二个SNP的alleles. 以此类推。。。 0 0代表missing data

TAB delimited。

a4c26d1e5885305701be709a3d33442f.png

map文件没有header

Each line corresponds to a SNP.

one line per SNP with 4 fields

Chromosome code. PLINK 1.9 also permits contig names here, but

most older programs do not.

Variant identifier

Position in morgans or centimorgans (optional; also safe to use

dummy value of '0')

Base-pair coordinate

a4c26d1e5885305701be709a3d33442f.png

2  bed(binary geotype table),bim and fam

这里的bed和UCSC Genome BED format完全不一样。

将ped 和 map转换为bed, bim, fam

plink --noweb --file PedMapPrefix --make-bed

--out BedBimFamPrefrix

3 phenotype format

三列,可以 no header。

FID IID pheno

a4c26d1e5885305701be709a3d33442f.png

GWAS常用软件:

一, GAPIT

Zhiwu Zhang lab(http://www.zzlab.net/GAPIT/index.html)

phenotypic data:

第一行: header

第一列 sample名称 第二列表型值

a4c26d1e5885305701be709a3d33442f.png

Genotypic data:

可以是hmp格式, 只用rs(SNP name)列,chrom列和pos列。 前11列的其余列用可以用NA。

也可以是numeric 格式。

二, GEMMA

Xiang Zhou lab (http://www.xzlab.org/index.html)

Genotype 要先impute, 不能有missing data。

genotype和phenotype data 用PLINK Binary PED file format.

三, FARMCPU

Zhiwu Zhang lab (http://www.zzlab.net/FarmCPU/)

Genotypic data 用numeric format

Phenotypic 和GAPIT一样

可选PCA文件, 可以先运行GAPIT 得到这个文件,第一行是header,

each line corresponds a individual's  priciple

component value.下面只有三个components。

a4c26d1e5885305701be709a3d33442f.png

四, TASSEL5

Buckler Lab

(http://www.maizegenetics.net/tassel)

https://bitbucket.org/tasseladmin/tassel-5-source/wiki/UserManual/Load/Load#markdown-header-hapmap

做SNP kinship 和 PCA 用hmp format, 推荐用single bit。 N 表示missing

data。

For TASSEL to correctly read Hapmap data, the data must be in

order of position within each chromosome, and the file should be

TAB delimited (example below is in Excel only for easy viewing). If

some of the data is missing the correct number of TABs must still

be present, so that TASSEL can properly assign data to columns.

用-h 来指定导入的文件格式是hmp。 不要用-importGuess

-h *.hmp

五, LDAK

http://dougspeed.com/

Phenotypic data 用plink的phenotype格式

--pheno *.txt

UNL

Chenyong

cmiao@huskers.unl.edu

PLINK工具主要用于处理基于SNP的遗传学数据,如`.vcf` (Variant Call Format) 格式的数据,但并不是直接用于转换`.bam` (BAM/SAM文件,通常包含基因组序列的读) 文件到`.ped` (Pedigree File) 或`.map` (Genotype Map File) 的。BAM文件通常由深度测序得到,而`.ped`和`.map`文件则是描述个体遗传标记信息的标准格式。 如果你有一个`.bam`文件,并希望从中提取遗传信息以创建`.ped`和`.map`文件,一般需要经过以下几个步骤: 1. **将BAM转换为VCF**[^1]: 使用一些专门的软件如GATK(Genome Analysis Toolkit),BCFTOOLS或Samtools来从BAM文件生成VCF文件,这些工具可以进行比对并报告变异。 ```bash samtools mpileup -uf reference.fasta bamfile.bam | bcftools call -mv > vcf_file.vcf ``` 2. **清洗和过滤VCF文件**: 对于后续分析,可能需要清洗VCF文件,去除低质量标记,仅保留感兴趣的样本等。 3. **转换为PLINK格式**: 当VCF文件准备就绪后,你可以使用PLINK的`--vcf`选项将其转换为`.ped`和`.map`文件。 ```bash plink --vcf vcf_file.vcf --make-bed --recode --out output_directory ``` 这里假设你已经有了每个样本的个体ID信息,以及与参考基因组相对应的基因座信息。 请注意,这个过程可能依赖于特定的工具和配置,具体步骤可能会有所不同。如果你只是想了解如何从BAM到PED/Map的基本流程,上述命令提供了一个起点。实际操作时可能需要进一步研究和调整参数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值