生信小猪本猪-CSDN博客

转载使用annovar对重测序结果SNP和INDEL变异位点进行注释

以tab分割，第1列为.variant_function文件中该变异所在行号，第2列为变异功能性后果，如外显子改变导致的氨基酸变化，阅读框移码，无义突变，终止突变等，第3列包括基因名称、转录识别标志和相应的转录本的序列变化，从第4列开始及后面的所有列其实是输入文件内容(all.clean.snp.annovar.input表格里面的内容）。使用annovar提供了两个脚本以供注释使用：annotate_variation.pl一次注释一个数据库，table_annovar.pl一次注释多个数据库。

2024-05-25 21:55:38 644 1

转载 Python--从VCF文件中提取出各个样本的变异信息，并按特定的格式重新组织这些数据

归一化后各基因型的可能性，通常有三个数字用','隔开，顺序对应AA,AB,BB基因型，A代表REF，B代表ALT(也就是0/0, 0/1, and 1/1)，由于是归一化之后，数值越小代表基因型越可靠；它首先解析VCF文件中的各列，然后针对每个样本的数据，提取和处理基因型信息、深度信息等，最后将处理后的数据重新组织并写入到输出文件中。，因为在GATK中再大的值是没有意义的，第二小的数大于99的话一般说明基因型的判读是很可靠的，只有当第二小的数小于99的时候，才有必要怀疑基因型的可靠性。

2024-05-25 21:43:54 384

转载 Linux常用传输工具--scp

如果想使用指定用户的身份进行验证，可使用用户名@主机地址的参数格式。最后需要在远程主机的IP地址后面添加冒号，并在后面写上要传送到远程主机的哪个文件夹中。例如，如果想把一些文件通过网络从一台主机传递到其他主机，这两台主机又恰巧是Linux系统，这时使用scp命令就可以轻松完成文件的传递了。如果文件夹里面有以中文命令名的文件，可以从windows上传到linux服务器上，但是从linux服务器传到windows会报错。scp 是加密的，rcp 是不加密的，scp 是 rcp 的加强版。

2024-05-25 21:34:46 32

转载手动安装R包

2、去https://bioconductor.org/下载R包源码。3、把下载的R包源码拖到服务器的R包默认安装路径下。1、先查询一下在linux下R包的安装路径。这里以安装rtracklayer包为例。二、BiocManager安装。加载R包，发现安装成功。

2024-05-25 21:27:30 120

转载 Linux下安装R包fgsea报错及解决办法

libRblas.so: 无法打开共享对象文件: 没有那个文件或目录。安装这个包时费了一些时间，这里选择记录一下，希望能供后来者借鉴。把下面这句话加在~/.bashrc文件中，如果是自己的话，根据。上面是官方提供的安装方法，但是我按照这个方法安装时报错。文件夹下，于是我把它加在我的环境变量中。手动安装时也报错，报了下面错误。生信小猪，公众号：生信小猪。文件所在路径进行相应修改。

2024-05-25 21:19:15 56

转载 emcp软件包的安装以及构建OrgDB

这个软件包使用时需要argparser, tidyverse, formattable, AnnotationForge, seqinr, clusterProfiler这些依赖，上面安装过程只显示缺少argparser，把这个包安上。在使用这个软件时，会提示哪些包没安上，给安上就行。在安装的过程中，发现clusterProfiler这个包挺难装的，这个包也有很多依赖包，其中polyclip这个包就一直报下面的错误。依赖我感觉还是比较难装的，自动手动的方式都用了，花了一下午的时间，才把这个软件安装成功。

2024-05-25 21:12:08 57

转载重测序BSA--ED方法关联分析

在本次脚本里，利用了两混池间基因型存在差异的SNP位点，统计各个碱基在不同混池中的深度，并计算每个位点ED值，为消除背景噪音，对原始ED值进行乘方处理，本项目取原始ED的5次方作为关联值以达到消除背景噪音的功能，然后采用。一样的数据(all.clean.snp.qtlseq.vcf.gz文件，解压一下)，但是不用它的亲本数据，只用到两个子代极端混池的数据。ED算法不依赖于亲本的数据，也可以做F1子代的QTL定位，所以这种方式适用的群体类型是比较多的。，该位点的基因型就是纯和的且和参考基因组完全不一致。

2024-05-25 20:51:25 152

转载利用seqtk从基因组文件里面提取部分序列

一、根据序列名提取固定序列使用 seqtk subseq 命令从基因组文件里面提取部分序列比如从下面文件里提取chrA01，chrA04，chrA05染色体的序列可以使用下面命令在这个命令里，name.list文件是自己整理的解释命令：1) seqtk subseq: 使用Seqtk工具的子命令，用于提取序列。2) test.fa: 输入的FASTA格式文件，文件名为test.fa。3) name.list: 染色体名称文件，用于指定要提取的序列。4) tiqu-test.fa: 输出的FASTA格式

2024-05-25 20:30:10 894

转载 python--将多个文件合并成一个文件，并在最后添加文件名列

综上所述，运行这个命令会在当前目录下查找所有以 gene.count.txt 结尾的文件，并将它们合并成一个文件。合并的结果将被写入到一个新的输出文件中，保留了输入文件的表头信息。这里利用Python编写的简单脚本，它能够快速合并指定文件夹下特定后缀的多个文件，并将合并结果保存为一个文件。这个脚本的功能是合并指定目录下特定后缀的多个文件，并将合并后的结果写入到一个输出文件中。2）合并文件：脚本遍历输入目录中符合指定后缀的文件，读取每个文件的内容，并将其合并到一个数据框中。原创微信公众号生信小猪。

2024-05-24 22:39:18 179

转载 Python--将vcf格式文件转换成hapmap格式文件

VCF（Variant Call Format）是一种常用的基因组学数据格式，用于记录基因变异，包括单核苷酸多态性（SNP）和其他类型的基因突变。上一篇python--将多个文件合并成一个文件，并在最后添加文件名列下一篇根据基因在染色体的位置，把某一区间的所有基因提取出来。4）all.hapmap.txt：这是输出文件的路径和名称，表示转换后的HapMap格式数据将被写入这个文件。3）all.clean.vcf.gz：这是输入文件的路径和名称，表示一个压缩的VCF文件。脚本的全部内容。

2024-05-24 22:27:56 153 1

转载根据基因在染色体的位置，把某一区间的所有基因提取出来

然后在遍历基因位置文件的过程中，如果找到了一个基因位置与当前区域匹配，我们将 found 标志设为 True，表示找到了匹配的基因。使用 matched_genes_path 和 unmatched_genes_path 分别创建匹配的基因文件 ("matched_genes.txt") 和未匹配的基因文件 ("no_matched_genes.txt")。这样，脚本便完成了将基因位置文件中位于区域文件指定区间内的基因提取出来，并保存在匹配的基因文件中，同时将未匹配的区域保存在未匹配的基因文件中。

2024-05-24 22:16:22 264

qq_64400864的博客