VCF文件在转化plink格式后,生成的map文件往往由于无SNP的ID号,导致不能进行后续分析(如:群体结构分析等),本文利用awk命令在VCF文件中添加ID,命名格式为染色体_位置形式。
# 解压VCF文件
gunzip -c input.vcf.gz > input.vcf
# 使用awk为VCF文件中的每个SNP添加ID
awk 'BEGIN{OFS="\t"} /^#/ {print $0; next} {$3=$1"_"$2; print $0}' input.vcf > output_with_ids.vcf
# 压缩新的VCF文件
bgzip -c output_with_ids.vcf > VCFID.gz
# 为新的gz文件创建索引
tabix -p vcf VCFID.gz
head -n 1 data.txt > extracted_data.txt; grep 'FBA_SHZ21' data.txt >> extracted_data.txt
这条命令的作用是:
head -n 1 data.txt > extracted_data.txt
:提取data.txt文件的第一行(表头),并将其写入extracted_data.txt文件。grep 'FBA_SHZ21' data.txt >> extracted_data.txt
:提取data.txt文件中包含"FBA_SHZ21"的所有行,并将结果追加到extracted_data.txt文件中。