SNP位点ID添加

VCF文件在转化plink格式后,生成的map文件往往由于无SNP的ID号,导致不能进行后续分析(如:群体结构分析等),本文利用awk命令在VCF文件中添加ID,命名格式为染色体_位置形式。

# 解压VCF文件
gunzip -c input.vcf.gz > input.vcf

# 使用awk为VCF文件中的每个SNP添加ID
awk 'BEGIN{OFS="\t"} /^#/ {print $0; next} {$3=$1"_"$2; print $0}' input.vcf > output_with_ids.vcf

# 压缩新的VCF文件
bgzip -c output_with_ids.vcf > VCFID.gz

# 为新的gz文件创建索引
tabix -p vcf VCFID.gz

head -n 1 data.txt > extracted_data.txt; grep 'FBA_SHZ21' data.txt >> extracted_data.txt

这条命令的作用是:

  1. head -n 1 data.txt > extracted_data.txt:提取data.txt文件的第一行(表头),并将其写入extracted_data.txt文件。
  2. grep 'FBA_SHZ21' data.txt >> extracted_data.txt:提取data.txt文件中包含"FBA_SHZ21"的所有行,并将结果追加到extracted_data.txt文件中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值