![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
1000Genomes
camma
这个作者很懒,什么都没留下…
展开
-
SnpSift对vcf文件变异位点dbsnp注释
人类变异参考基因组:https://www.ncbi.nlm.nih.gov/variation/docs/human_variation_vcf/#file-updatehttps://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/SnpSift文档:https://pcingola.github.io/SnpEff/ss_annotate/进行rsId Annotate脚本:for chr in {1..22}; do java -ja原创 2021-12-21 16:42:31 · 842 阅读 · 0 评论 -
pysam
仅在Linux上工作安装:pip install pysam对于pysam,我是利用fetch方法来查询VCF文件,调用fetch方法需要先对vcf文件建立索引:/home/user/htslib/htslib-1.14/bgzip -c chr22.dbsnp.noGT.recode.vcf > chr22.dbsnp.noGT.recode.vcf.gzbcftools index -c chr22.dbsnp.noGT.recode.vcf.gz然后生成一个csi文件。pytho原创 2021-12-19 22:25:02 · 1952 阅读 · 0 评论 -
ValueError: You are trying to merge on object and int64 columns
错误如下:ValueError: You are trying to merge on object and int64 columns. If you wish to proceed you should use pd.concat原代码:pca = pd.read_csv("I:/1000GenomeProject/result/plink.eigenvec"," ",header=None)ped = pd.read_csv("I:/1000GenomeProject/result/2013原创 2021-10-18 19:58:48 · 1148 阅读 · 0 评论 -
bcftools安装
bcftools下载地址:http://www.htslib.org/download/Linux安装wget -c https://github.com/samtools/bcftools/releases/download/1.13/bcftools-1.13.tar.bz2tar xjvf bcftools-1.13.tar.bz2^Ccd bcftools-1.13makemake install编译echo 'PATH=$PATH:/home/luoyang/bcftools/b原创 2021-10-07 15:35:45 · 6907 阅读 · 0 评论 -
JBrowse2:1000Genomes可视化
项目结构:html:<h1>We're using JBrowse Linear View!</h1><div><div id="jbrowse_linear_view" style="min-height:700px;"></div><script type="module" src="../static/js/jbrowse/assemblymanage.js" ></script></div>原创 2021-10-05 18:52:19 · 1022 阅读 · 14 评论 -
vcf样本基因型提取--PyVCF处理
需要提取vcf文件的样本基因型,原始文件:代码:import vcfvcf_reader = vcf.Reader(filename=r"I:/1000GenomeProject/vcftools_filter/chr22_filter.recode.vcf")genomeType=[]for record in vcf_reader: # 样本个数 # print(record._sample_indexes) # 样本基因型 # 把FORMAT信息作为键,后原创 2021-09-15 16:13:24 · 1944 阅读 · 0 评论 -
aspera:Linux上安装使用
下载地址:https://www.ibm.com/products/aspera/downloads解压并安装:设置环境变量:下载千人基因组数据示例:#-v(详细模式)#-Q(用于自适应流量控制,磁盘限制所需)#-T(取消加密)#-k1(断点重连)#-l(限速)#-P (用于SSH身份验证的TCP端口,一般都是P33001)#-i (密钥路径)...原创 2021-08-23 15:49:45 · 2786 阅读 · 0 评论 -
python正则表达式从字符串里提取数值计算均值方差
原始数据文件原文件是.vcf格式,需要提取AF、EAS_AF等后面的数值,计算方差与均值正则表达式import refilepath = "I:/1000GenomeProject/release20130502/ALL.chr22.phase3_shapeit2_mvncall_integrated_v5b.20130502.genotypes.vcf"txt = open(filepath,"r").read()regex = re.compile(r'(?<=EAS_AF=)\原创 2021-08-12 21:13:36 · 562 阅读 · 1 评论 -
VCF变异文件读取和详细
下载了千人基因组variants数据,是.vcf.gz和.vcf.gz.tbi文件格式,需要在linux上打开,此时我还是一个生信小菜鸡,记录一下vcf文件读取和详细解释。在服务器先解压再打开,gunzip 文件.vcf.gzcat 文件.vcf结果如下,60G+的文件太大了,只好读取一部分:VCF各列意义说明各列之间用tab空白隔开;前面9列为固定列,第10列开始为样品信息列,可以无限多个;#CHROMPOSIDREFALTQUALFILTERINFOFORMAT后面原创 2021-08-02 18:53:23 · 14448 阅读 · 24 评论