数据的模态有
Clinical Data(临床数据)
Genetic(基因数据)
MRI
PET
BIOSPECIMEN(生物样本)
各模态数据的内容、特点
Clinical Data
内容: 招聘、人口统计、体检和认知评估数据。完整的临床数据集可以作为逗号分隔值(CSV)文件批量下载
基因数据
内容: 受试者的基因分型和测序数据,数据格式:CSV,VCF,BAM
基因分型数据:
APOE Genotyping -- CSV
TOMM40 PolyT Variant -- CSV
全基因组测序数据:
WGS (GATK Call) SNV + Indel -- VCF
WGS (CASAVA Call) SNV -- VCF
Sequenced alignment data -- BAM(不可直接下载)
存在VCF数据,不过数据量都较大,是以G为单位的
VCF数据完整的表现应为:
Record(CHROM, POS, ID, REF, ALT, QUAL, FILTER, INFO, FORMAT, sample_indexes, samples=None)
其中:
- CHROM:染色体名称,类型为str
- POS:位点在染色体上的位置,类型为int
- ID:一般是突变的rs号,类型为str。如果是‘.’,则为None
- REF:参考基因组在该位点上的碱基,类型为str
- ALT:在该位点的测序结果。是_AltRecord类的子类实例的列表。类型为list。_AltRecord类有4个子类,代表了突变的几种类型:如snp,indel,structual variants等。所有的实例都可以进行比较(仅限于相等的比较,没有大于小于之说),部分子类没有实现str