0.关注SNP的筛选
自己筛选出vcf中所关注的连锁区块位点
1.路径下vcf文件转换——>使用plink
plink --vcf vcf_block.vcf --recode --out output_file --allow-extra-chr
2.数据处理(1)
ped中的表型数据默认为-9,需要改为0。这个是必须的,否则就报错
# ped中的表型数据默认为-9,需要改为0。这个是必须的,否则就报错
f1 = open("output_file.ped", "r").read()
f2 = open("zc.ped", "w")
f2.write(f1.replace("-9", "0").replace("BC-", "BC_")) # 替换掉文件中会出现异常的下划线和表型数据默认的-9
f2.close()
3.数据处理(2)
筛选关注SNP的位点并处理map文件(只取2、4)两列
# 将map的第二列和第四列提取出来,保存为a1.info文件。
import pandas as pd
f_map = pd.read_csv("output_file.map", sep="\t")
f_map.iloc[:, [1, 3]].to_csv("zc2.map", index=False, sep="\t")
4.jar包路径下启用jar包
https://www.java.com/zh-CN/download/
java -jar Haploview.jar
5. 传入处理好的文件,结果1