DNA 16. SCI 文章研究表型与基因型之间的关系工具（TASSEL）

桓峰基因

于 2023-03-16 16:19:55 发布

阅读量1.4k

点赞数

本文链接：https://blog.csdn.net/weixin_41368414/article/details/129606146

版权

基因组生信分析教程

DNA 1. Germline Mutation Vs. Somatic Mutation 傻傻分不清楚

DNA 2. SCI 文章中基因组变异分析神器之 maftools

DNA 3. SCI 文章中基因组变异分析神器之 maftools

DNA 4. SCI 文章中基因组的突变信号（maftools）

DNA 5. 基因组变异文件VCF格式详解

DNA 6. 基因组变异之绘制精美瀑布图（ComplexHeatmap）

DNA 7. 基因组拷贝数变异分析及可视化 (GISTIC2.0)

DNA 8. 癌症的突变异质性及寻找新的癌症驱动基因(MutSigCV)

DNA 9. 揭秘肿瘤异质性与TMB, MSI之间的相关性

DNA 10. 识别癌症驱动基因 (OncodriveCLUST)

DNA 11. 识别肿瘤蛋白质三维结构上突变热点(HotSpot3D)

DNA 12. SCI 文章绘图之全基因组关联分析可视化(GWAS)

DNA 13. SCI 文章肿瘤突变负荷计算方法（TMB）

DNA 14. SCI 文章肿瘤微卫星不稳定性计算方法（MSI）

DNA 15. SCI 文章肿瘤微卫星不稳定性之 MSIsensor 系列软件

这期分享研究表现型和基因型之间关系的工具——TASSEL，这个工具也算很早就应用在玉米这种复杂的植物基因组上，那之后在动植物育种等研究基因型和表型之间的关系也越发常用，下面就给大家详细介绍一下如何使用？

简介

利用基因组的自然多样性来绘制非常高分辨率的关联分析正变得越来越重要。然而，在大多数研究中，研究人员必须克服人口和家庭结构的混淆效应。TASSEL (Trait Analysis by aSSociation, Evolution and Linkage)采用一般线性模型和混合线性模型方法控制种群和科系结构。对于结果解释，该程序允许计算连索不平衡统计数据并以图形方式可视化。数据库浏览和数据导入由集成中间件提供方便。其他功能包括分析插入/删除，计算多样性统计，整合表型和基因型数据，输入缺失数据和计算主成分。虽然自从2001年开始公开发行以来TASSEL已经发生了相当大的变化，但是它的主要功能仍然是为研究表现型和基因型之间的关系提供工具。TASSEL的功能有:关联研究，评价进化关系，分析连锁不平衡，主成分分析，聚类分析，估算缺失数据，数据可视化。TASSEL的开发由玉米遗传学和基因组学的一个课题组领导，因此这个软件的设计和计算上的优化都是为了解释很多植物和育种情况中存在的生物学现象。与人类遗传学相比，很多作物在核苷酸水平和结构变异上都是非常多样的(多样性比人类大10-50倍)，近交和大的家系也是常见的，并且全基因组预测正在日益应用于现实世界的问题。这些生物学的差异导致一些不同的优化，这些优化对作物之外的很多生物学系统也有用处。驱动TASSEL开发的设计要点之一是对更大的数据集进行分析的需要。TASSEL5的核心对大数据进行了很多设计优化。

TASSEL用于评估性状关联，进化模式和连锁不平衡。本软件的优点包括:

1. 有机会使用一些新的强大的统计方法来进行关联映射，例如通用线性模型(GLM)和混合线性模型(MLM)。MLM是我们最近发表的《自然遗传学》论文——关联映射的统一混合模型方法——的一种技术的实现，该技术减少了与复杂谱系、家族、创始效应和种群结构关联映射中的I型错误。

2. 能够处理广泛的索引(插入和删除)。大多数软件忽略了这种类型的多态性;然而，在某些物种(如玉米)中，这是最常见的多态性类型。

软件安装

window下安装

这个版本的可以参考官网教程，使用非常方便，重点说下面Linux版本。

Linux下安装

Java JDK 8.0的安装

#下载
wget http://download.oracle.com/otn-pub/java/jdk/8u112-b15/jdk-8u112-linux-x64.rpm
#安装
rpm -ivhc jdk-8u112-linux-x64.rpm
#测试安装
java -vsrsion
#查看java版本
java -version
java version "1.8.0_112"
Java(TM) SE Runtime Environment (build 1.8.0_112-b15)
Java HotSpot(TM) 64-Bit Server VM (build 25.112-b15, mixed mode)

更改环境变量,按照如下添加

vim   /etc/profile
JAVA_HOME=/usr/java/jdk1.8.0
JRE_HOME=/usr/java/jdk1.8.0/jre
PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export JAVA_HOME JRE_HOME PATH CLASSPATH
#编辑完后执行脚本
source /etc/profile

TASSEL的安装

很简单，按照如下即可

#github clone
git clone https://bitbucket.org/tasseladmin/tassel-5-standalone.git
cd tassel-5-standalone

或者直接使用conda安装：

conda install -c biobuilds tassel

或者直接下载：

Tassel 下载地址：https://www.maizegenetics.net/tassel

示例文件均存放于:

./tassel-5-standalone/TASSELTutorialData/data/

数据读取

Tassel 软件输入文件常见的基因型数据格式有三种：

Hapmap 数据格式

1	2	3	4	5	6	7	8	9	10	11	12
rs#	alleles	chrom	pos	strand	assembly#	center	protLSID	assayLSID	panelLSID	QCcode	Line1
HAPMAP

VCF数据格式

VCF 包含9列，从第10列开始为每个样本信息。表头##开头的为注释信息，包含了 VCF 文件的版本信息，以及对INFO及FORMAT列的解释。

1	2	3	4	5	6	7	8	9	10
#CHROM	POS	ID	REF	ALT	QUAL	FILTER	INFO	FORMAT	Line1

plink数据格式

plink示例数据来进行演示，这个数据很小，也可以自己生成。

map数据：

map格式的文件, 主要是图谱文件信息, 主要包括染色体名称, 所在的染色体和所在染色体的坐标.

1, map文件没有行头

2, map文件包括四列: 染色体, SNP名称, SNP位置, 碱基对坐标

染色体编号为数字, 未知为0

SNP名称为字符或数字, 如果不重要, 可以从1编号, 注意要和bed文件SNP列一一对应

染色体的摩尔未知(可选项, 可以用0)

SNP物理坐标

3, 如果只有SNP名称, 可以手动构建map文件, 第二列为SNP名称, 其它三列为0即可.

$ cat toy.map
1       rs0     0       1000
1       rs10    0       1001

ped 数据：

ped格式的文件, 主要包括SNP的信息, 包括个体ID, 系谱信息, 表型和SNP的分型信息.

1, 数据没有行头, 空格或者tab隔开的文件 2, 必须要有六列, 包括系谱信息, 表型信息

第一列: Family ID # 如果没有, 可以用个体ID代替

第二列: Individual ID # 个体ID编号

第三列: Paternal ID # 父本编号

第四列: Maternal ID # 母本编号

第五列: Sex (1=male; 2=female; other=unknown) # 性别, 如果未知, 用0表示

第六列: Phenotype # 表型数据, 如果未知, 用0表示

第七列以后: 为SNP分型数据, 可以是AT CG或11 12, 或者A T C G或1 1 2 2

3, 上面六列, 必须要有, 如果没有相关数据, 用0表示.

$ cat toy.ped
1 1000000000 0 0 1 1 0 0 A A
1 1000000001 0 0 1 2 C C A G

HDF5（层次数据格式，版本5 )

hdf5格式文件 Hierarchical Data Format Version 5, HDF5：层次性数据格式第五版是一种存储相同类型数值的大数组的机制，适用于可被层次性组织且数据集需要被元数据标记的数据模型常用的接口模块为 h5py 为其缩写 HDF5 三大要素：hdf5 files：能够存储两类数据对象 dataset 和 group 的容器，其操作类似 python 标准的文件操作；File 实例对象本身就是一个组，以 / 为名，是遍历文件的入口 dataset(array-like)：可类比为 Numpy 数组，每个数据集都有一个名字（name）、形状（shape）和类型（dtype），支持切片操作 group(folder-like)：可以类比为字典，它是一种像文件夹一样的容器；group 中可以存放 dataset 或者其他的 group，键就是组成员的名称，值就是组成员对象本身(组或者数据集)

实例操作

数据格式转换

从VCF到Hapmap文件的转换

添加 -sortPositions 参数，以便在转换之前进行位点排序

run_pipeline.pl -Xms10g -Xmx100g  -vcf in.vcf.gz -sortPositions -export out.hmp.txt -exportType HapmapDiploid

从 hapmap 格式到 vcf：

run_pipeline.pl -Xms10g -Xmx100g  -h in.hmp.txt -sortPositions -export out.vcf -exportType  VCF

exportType 的类型有多种：

Hapmap HapmapDiploid HDF5 VCF Plink Phylip_Seq Phylip_Inter Fasta Text ReferenceProbablity Depth SqrMatrix SqrMatrixRaw (for MultiBLUP) SqrMatrixBin (for MultiBLUP) Phenotype PlinkPhenotype Table

数据过滤

位点过滤

不建议使用Tassel过滤位点，建议使用 vcftools软件或者自己编写程序对不合格位点进行过滤。

./run_pipeline.pl -Xms10g -Xmx100g  -h ./TASSELTutorialData/data/mdp_genotype.hmp.txt  -filterAlignMinFreq 0.05 -filterAlignMaxFreq 0.95 -export out.hmp.txt -exportType HapmapDiploid

缺失基因型插补

使用 FILLIN 方法进行插补

./run_pipeline.pl -Xms10g -Xmx100g -FILLINFindHaplotypesPlugin -hmp ./TASSELTutorialData/data/mdp_genotype.hmp.txt -o Donor
./run_pipeline.pl -Xms10g -Xmx100g -FILLINImputationPlugin -hmp ./TASSELTutorialData/data/mdp_genotype.hmp.txt  -d Donor -o out.hmp.txt

按照染色体切分基因型文件

./run_pipeline.pl -h ./TASSELTutorialData/data/mdp_genotype.hmp.txt -separate -export

计算亲缘关系

./run_pipeline.pl  -Xms50g -Xmx50g  -importGuess ./TASSELTutorialData/data/mdp_genotype.hmp.txt -KinshipPlugin -method Centered_IB

计算kinship矩阵

适合小数据集，重测序数据需要更改内存配置参数

./run_pipeline.pl -fork1 -h ./TASSELTutorialData/data/mdp_genotype.hmp.txt -ck -export kinship.txt

LD分析

绘制LD连锁图，很难看，可以使用hapview或者LDheatmap

./run_pipeline.pl -fork1 -h ./TASSELTutorialData/data/mdp_genotype.hmp.txt -ld -ldd png -o chr_5000sites_ld.png

计算LD

./run_pipeline.pl -fork1 -h ./TASSELTutorialData/data/mdp_genotype.hmp.txt -ld -export LD_5000sites

提取染色体

提取每条染色体

./run_pipeline.pl -fork1 -h ./TASSELTutorialData/data/mdp_genotype.hmp.txt -separate  -export chromosome

提取1和3号染色体

./run_pipeline.pl -fork1 -h ./TASSELTutorialData/data/mdp_genotype.hmp.txt -separate 1,3  -export chromosome

MLM分析

./run_pipeline.pl -fork1 -h ./TASSELTutorialData/data/mdp_genotype.hmp.txt -filterAlign -filterAlig

References:

Bradbury PJ, Zhang Z, Kroon DE, Casstevens TM, Ramdoss Y, Buckler ES. TASSEL: software for association mapping of complex traits in diverse samples. Bioinformatics. 2007;23(19):2633-2635. doi:10.1093/bioinformatics/btm308

这个小工具还算好用，如果数据量很大，建议都是用Linux，比较自己的小电脑资源也有限！

桓峰基因，铸造成功的您！

未来桓峰基因公众号将不间断的推出单细胞系列生信分析教程，

敬请期待！！

桓峰基因和投必得合作，文章润色优惠85折，需要文章润色的老师可以直接到网站输入领取桓峰基因专属优惠券码：KYOHOGENE，然后上传，付款时选择桓峰基因优惠券即可享受85折优惠哦！https://www.topeditsci.com/

有想进生信交流群的老师可以扫最后一个二维码加微信，备注“单位+姓名+目的”，有些想发广告的就免打扰吧，还得费力气把你踢出去！