从零开始进行单倍型分析
(一)基础知识篇
(二)分析工具篇
(六)数据准备及软件实操篇
(七)单倍型分析常见问题
数据准备篇
想要进行单倍型分析,首先,必须要准备目标群体的基因型信息,为详细了解变异位点所处的位置或效应,还应该准备目标区间的注释信息,为研究不同单倍型的地理分布、表型上的的差异还需要准备目标群体中每个成员的地理位置、感兴趣的表型信息等。
一、基因型信息
1. VCF 文件(Variant Call Format)
(一)基本概念
VCF 文件是一种用于存储基因序列变异信息的文本格式,在生物信息学领域被广泛应用。它主要用于记录一个或多个样本中基因组、外显子组或转录组等区域的变异位点信息。
(二)文件结构
- 文件头(Header)
- 以 “##” 开头,包含了关于文件的元数据信息,例如:
- 文件格式版本:如 “##fileformat=VCFv4.2”,明确了遵循的 VCF 规范版本。
- 参考基因组信息:
- 以 “##” 开头,包含了关于文件的元数据信息,例如: