HIBLUP软件学习2-输入文件格式

表型文件

与其他软件不同,HIBLUP 所需的表型文件不仅要包括表型记录,还要包括环境协变量、固定效应和随机效应。第一列必须是单独的 id,头部应该包含在文件中。示例表型文件简介如下:
在这里插入图片描述下面的任何符号在加载文件时将被视为缺失:
在这里插入图片描述此文件应该分配给参数选项--pheno
默认情况下,HIBLUP 将采用第二列的 trait 进行分析,用户可以通过使用--pheno-pos n,例如--pheno-pos 8表示,使用第8列进行分析来指定不同的列。

注意

如果有多个性状可用于估计遗传相关性,请使用空格作为分隔符,例如--pheno-pos 8 9 10

协变量,固定和环境随机效应

对于一个性状的协变量、固定效应和环境随机效应,请分别在表型文件中指定它的位置来标记--qcovar(协变量)、--dcovar(固定效应)、--rand(随机效应)。
对于单个 trait(性状),请使用逗号","作为分隔符,例如:
--qcovar 4,5将“day” and “weight”视为协变量。
--dcovar 2,3将“sex” and “season”视为固定效应。
--rand 6将“loc”视为随机效应。
对于多个性状,如果有一些环境因素需要作为模型效应进行拟合,那么所有性状都应该在模型效应中指定,并且请在一个性状中使用逗号作为分隔符,在性状之间使用空格,如果没有考虑到这些因素,则在一个性状中使用0,以固定效应为例:

./hiblup ... --dcovar 2,3 0 2,3,6 ...

第一个性状具有两个固定效应: “性别”和“季节”; 第二个性状没有固定效应; 第三个性状具有三个固定效应: “性别”、“季节”和“地点”。

重点

--qcovar 用于指定环境影响作为定量协变量,影响的记录应为数字,任何字符都不允许。
--dcovar用于将环境效应指定为离散的协变量,效应的记录可以是数字或字符,两者都是可接受的。
--rand指定环境随机效应,这些随机效应来自于记录的环境因素,遗传随机效应来自于家系或基因组信息,如果提供家系或基因型文件,HIBLUP 将自动适应模型中的遗传随机效应,用户不需要在这里添加个人 ID 列作为随机效应。

系谱文件

利用谱系文件导出分子关系矩阵和近交系数。文件中需要按顺序排列三列。第一列是个人 id,第二列和第三列分别是其父亲和母亲 id

NA  Na  .  -  NaN  NAN  nan  na  N/A  n/a  <NA>

与表型文件一样,上述列表中的任何符号出现在谱系文件中都将被视为缺失。家谱的示例文件如下:

id    father    mother
Ind2    NA    NA
Ind5    Ind1    NA
Ind11    NA    Ind2
Ind17    Ind11    Ind5
Ind22    Ind1    Ind5
Ind45    Ind22    Ind2

此文件需要使用参数项--pedigree

注意

第一栏中的个人 ID 的顺序可以按出生日期排序,但这不是强制性要求,因为 HIBLUP 具有对输入谱系进行排序和重新排列的自动功能。

基因型文件

HIBLUP 目前只接受 PLINK 二进制格式的基因型,例如 demo.fam、 demo.bim 和 demo.bed,详情请参阅 PLINK 用户手册。用户可以通过 PLINK2和 TASSEL 将任何其他基因型格式(例如 VCF、 HapMap、 PED/MAP)转换为二进制格式:

# HapMap to VCF by TASSEL
./run_pipeline.pl -SortGenotypeFilePlugin -inputFile demo.hmp.txt
                  -outputFile demo.sort.hmp.txt -fileType Hapmap
./run_pipeline.pl -fork1 -h demo.sort.hmp.txt -export-exportType VCF -runfork1
# VCF to Binary
./plink2 --vcf demo.vcf --make-bed --out demo
# PED/MAP to Binary
./plink2 --ped demo.ped --map demo.map --make-bed --out demo

这些二进制文件需要分配参数项--bfile [prefix] (i.e., --bfile demo )

注意

(1) HIBLUP 只支持加载一个二进制文件,不支持加载多个二进制文件(例如,全基因组按染色体分别存储) ,请在使用 HIBLUP 之前通过 PLINK 进行合并,这里有一个粗略的指导。(https://www.biostars.org/p/148657/)
(2) HIBLUP 将 A1A1基因型编码为2,A1A2编码为1,A2A2编码为0,其中 A1是 *.bim文件中每个标记的第一个等位基因。因此,估计的效应大小是在 A1等位基因上,当一个过程涉及到标记效应时,用户应该注意它。

重点

HIBLUP 没有插补功能,二进制文件中的任何缺失基因型都将被视为杂合子,这意味着在分析中缺失将被迫编码为1,如果基因型中存在缺失,我们建议用户在使用 HIBLUP 之前通过其他软件进行插补。(例如beagle)

群体分层文件

由于不同的种群或品种有不同的遗传背景,因此不同种群的等位基因频率或基因型频率可能会有显著差异。HIBLUP 可以将种群分类信息整合到多种基因组分析中,例如等位基因或基因型频率计算、基因组关系矩阵构建、单个或多个性状模型拟合。人口分类文件编制简单,需要两栏,第一栏是个体ID列表,第二栏是个体所属的品种(以猪为例)。例如

ID Breed
Ind1 DD(杜洛克)
Ind2 YY(大白)
Ind3 LL(长白)
Ind4 YY
Ind5 LL

此文件需要指定参数项--pop-class

关系矩阵文件

HIBLUP 目前只接受二进制格式的关系矩阵(Relations Matrix,XRM) ,它具有最高的文件写入和数据加载效率,同时耗费最少的磁盘空间,例如 e.g. demo.GA.id
and demo.GA.bin。
文件 demo.GA.id 有一列列出所有个体的 id,即文件 demo.GA.bin 存储 XRM 的较低的三角形元素作为密集矩阵,以及文件demo.GA.bin 为稀疏矩阵存储 XRM 的行索引、列索引和三角形元素。
默认情况下,这些文件是由 HIBLUP 中的--make-xrm 生成的(参见构造关系矩阵)。
此外,我们还开发了一个文件格式转换器来制作这种二进制关系矩阵,请参阅相应的章节(见 XRM 的格式转换)。要使用 HIBLUP 的二进制 XRM,只需将其前缀分配给参数选项--xrm [prefix] :

./hiblup ... --xrm demo.GA ...

如果有多个 XRM,请使用逗号作为前缀之间的分隔符:

./hiblup ... --xrm demo.GA,demo.GD ...

重点

HIBLUP 具有计算 XRM 逆的功能,这可能对其他软件(如 BLUPF90,DMU,ASReml,…)有用,但对 HIBLUP 是无用的,因为 HIBLUP 使用 XRM 直接估计方差分量或解混合模型方程,因此请不要将关系矩阵的逆赋给 HIBLUP,除非你知道自己在做什么。

基因组估计育种值文件

基因组估计育种值(GEBVs)用于计算加性或显性 SNP 效应,第一列为样本 id,其余列为加性或显性 GEBVs,一个有三个个体的例子如下:

id    add
Ind1  -1.1345
Ind2  0.3245
Ind3  0.0234

此文件需使用参数项--gebv

注意

如果指定了--add,则应该提供附加育种值,标志--dom 也应该提供附加育种值。如果同时指定了加法和加法,则应在文件中提供加性和显性的育种值,加性育种值的列应在显性育种值的前面。

SNP 加权文件

SNPs 加权文件用于构造加权 XRM 或计算 SNP 效应,第一列为 SNP id,其余列为 SNPs 的权值,请确保所有权值均为正值,具有三个 SNPs 的示例如下:

SNPid  weight
SNP1   42
SNP2   0.3
SNP3   100

此文件需用参数项--snp-weight

注意

如果指定了—— add,则应提供附加权重,标志—— dom 也应提供附加权重。如果同时指定了 -add 和 -dom,则应在文件中提供所有加性和显性 SNP 的权重,加性权重列应位于显性权重的前面。

SNP 效应文件

SNP 效应文件用于预测基因型个体的 GEBV 或实施基因组交配,至少需要5列,举例如下:

SNPid  a1  a2  freq_a1 add       dom
SNP1   A   C   0.1243  0.30134   0.00000
SNP2   G   T   0.0345  -0.06324  0.00124
SNP3   A   G   0.3635  0.15425   -0.00913

此文件应使用参数项--score

注意

如前所述,提供的单核苷酸多态性效应类型应该与其 -add 和 -dom一致,如果两者都提供,则加性单核苷酸多态性效应列应位于显性单核苷酸多态性效应的前列。

摘要数据文件

来自 gWAS/meta 分析的摘要数据应以 COJO 格式编制,见下文:

SNP A1 A2 FREQ BETA SE P NMISS
M1 G T 0.5181 -1.565 1.155 0.1762 500
M2 A G 0.145 -1.77 1.519 0.2445 500
M3 G A 0.3206 1.498 1.583 0.3445 500
M4 C G 0.5356 0.3366 1.003 0.7374 500
M5 C G 0.0975 1.27 1.755 0.4695 500

列为 SNP,效应等位基因,其他等位基因,效应等位基因的频率,效应大小,标准误差,p 值和样本量。注意“ A1”需要是效应等位基因,“ A2”是另一个等位基因,“ FREQ”应该是“ A1”的频率。
此文件需用参数项--sumstat

基因组窗口文件

HIBLUP 支持用户定义的窗口来切割基因组进行多种分析,例如 LD 和 LD 评分计算,SBLUP 模型拟合。需要三栏内容如下:

chr    start    stop
1    10583    1577084
1    1577084    2364990
1    2364990    3150345
1    3150345    4284187
1    4284187    4854314
2    10133    341834
2    341834    1161563
2    1161563    1688845
2    1688845    2829810
2    2829810    3389305

注意,窗口应该是非重叠的。
此文件需要参数项--window-file

样本和 SNP 过滤器文件

HIBLUP 可以过滤所有可用函数中的样本和 SNP,文件编写简单,只需在文件中列出个体名称或 SNP 的 ID,不需要头文件。
示例文件 id.txt

Ind16
Ind56
Ind110

如果用户需要在分析中删除这些个体,只需要将其指定为标记--remove。相反,如果它被分配到标记--keep,只有那些个人在文件中将用于分析。

示例文件snp.txt

SNP23
SNP198
SNP432

如果用户需要在分析中删除这些 SNP,只需要将其指定为标记--exclude。相反,如果将其分配给标记--extract,那么将只使用文件中的 SNP 进行分析。

  • 24
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值