输入文件及Convertf程序
F3和F4统计输入文件必须是EIGENSTRAT格式,我们的数据通常都是PLINK格式,所以首先需要使用软件自带的convertf进行格式转换。
参考网址:Input File Formats and Conversion Program | David Reich Lab (harvard.edu)
这里就以示例文件PED格式为例。
一、输入文件
进入convertf目录,查看par.PED.EIGENSTRAT,可以看到输入文件和输出文件名。
genotypename: example.ped
snpname: example.pedsnp # or example.map, either works
indivname: example.pedind # or example.ped, either works
outputformat: EIGENSTRAT
genotypeoutname: example.eigenstratgeno
snpoutname: example.snp
indivoutname: example.ind
familynames: NO
可以分别查看example的这些文件内容,首先ped文件我们都有,example.pedsnp文件可以使用我们的map后缀的文件,这里我们需要手动建立pedind文件。
pedind示例文件包含了6列:
第一列:family ID
第二列:sample ID
第三列和第四列:父母的sample ID (没有就用0代替)
第五列:性别,1代表male,2代表female,U代表未知
第六列:设定分组,可以设定为case/control、traits value、group labels
二、convertf运行
将par.PED.EIGENSTRAT替换成自己数据的文件名,可添加文件路径
../bin/convertf -p par.PED.EIGENSTRAT
就会得到三个输出文件啦。
SNP数量越多,运行时间会越长。我的数据接近14M,运行时间160分钟。
关于输入文件的质控,即maf、LD prune的质控与否对后续分析结果的影响,可以做个对比分析。
今天暂且到这~