自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 ComplexUpset的简单使用记录

用ComplexUpset画Upset图

2022-06-06 17:28:47 1108 1

原创 全基因组haplotype基因型分析软件:GHap

首先,emm,”G“是”Genome-Wide"的缩写。R语言 GHap 包用于从"定相后(phased)的SNP数据"构建全基因组haplotype,及对其频率、基因型等进行分析。Haploview和Plink等软件可以分析haplotype block,但似乎无法输出各个样本的haplotype基因型,也就无法进行很多下游的分析,如基于haplotype-based GWAS,GHap包填补了这个空白。对Haplotype的定义方法有很多,常用的方法有以下两种:使用LD进行定义,参考 ”Gab

2021-11-29 16:43:42 4447 20

原创 conda的安装和使用-linux系统.md

1. 安装 conda如果安装过python的衍生版本anaconda,那么你就已经安装过conda了。若没有就去官网下个安装包wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.shchmod 777 Miniconda3-latest-Linux-x86_64.sh sh Miniconda3-latest-Linux-x86_64.sh 2. 使用- conda -h 这是首先要

2021-11-17 13:40:11 594

原创 ggplot2 保存图片字体错误问题

用ggplot2作完图,输出图片或者用ggsave()保存图片时可能会碰到字体错误问题,如设置字体为Arial后:Error in grid.Call.graphics(C_text, as.graphicsAnnot(x$label), x$x, x$y, : 字体类别出错一种解决方法是用 showtext 包输入需要的字体:library(showtext)font_add('Arial','/Library/Fonts/Arial.ttf') #加载字体,MAC 中字体库在 /Lib

2021-09-12 18:11:50 8289

原创 非模式生物KEGG富集分析: clusterProfiler

用到的软件:clusterProfiler(感谢Y叔)对于非模式生,可以先做KEGG注释,用注释文件直接进行计算,GO富集同理。用到三个文件1.背景基因的注释信息(所有可以注释到的基因),两列2.ko的描述信息文件,两列3.差异基因文件(软件会自动删掉没有注释到的基因),一列library(clusterProfiler)term2gene <- read.table('gene-ko-K.txt',sep = '\t')term2gene <- term2gene[,c(2,

2021-08-03 14:51:01 3434

原创 转录组分析流程:表达差异分析之edgeR

edgeRedgeR是非常经典的转录组表达差异分析软件。此外,HTSFilter软件用于差异表达基因过滤,相比过于严格的多重检验,HTSFilter能检测到更多的差异表达基因。HTSFilter需要有生物学重复。样本量:72个转录组样本library(edgeR)library(HTSFilter)fc <- read.table('counts.txt',header=1,row.names="Geneid") #counts矩阵,有表头group <- as.factor(st

2021-04-25 17:05:20 2249

原创 转录组分析流程:比对(有参)及统计Counts矩阵

样本:ChengShuaiShuai 早熟转录组 72个Ref: UTX_TM1_2.11. 质控fastqc *multiqc *trimmomatic_run.sh #去掉前9个碱基2. 比对gffread annotation.gff3 -T -o annotation.gtfhisat2_extract_splice_sites.py .UTX.gtf >UTX.gene.sshisat2_extract_exons.py UTX.gene.gtf >UTX.ge

2021-04-24 19:55:56 2519

原创 全基因组关联分析(GWAS)软件:Tassel5

Tassel 是比较经典的关联分析软件,但是因为运行速度没有优势,所以在重测序等数据量比较大的研究中不太常用。这是记录一下Tassel5 命令行进行关联分析的过程。参考:Tassel5:https://bitbucket.org/tasseladmin/tassel-5-source/wiki/HomeMLM:https://bitbucket.org/tasseladmin/tassel-5-source/wiki/UserManual/MLM/MLM1. 计算kinshiprun_pipeli

2021-03-12 20:35:23 4322

原创 全基因组关联分析(GWAS)软件:emmax

emmax 的优点是操作简单,运行速度非常快,几百万的SNP也可以半小时内跑完。1. 基因型格式# 转换成合适的格式nohup plink --vcf snp.vcf.gz --recode 12 --output-missing-genotype 0 --transpose --out snp --allow-extra-chr &注意:emmax 接受plink的长格式。基因型需要先 imputation,不能有缺失,且只识别双等位位点。snp ID (tped 文件第二列,不

2020-12-29 20:37:22 6514 1

原创 群体结构分析:用 phylip 构建进化树

用 phylip 构N-J树在 linux 系统,可以用 conda 安装 phylip 软件1. 将 SNP 文件转换为 phylip 格式用 tassel 的格式转换功能将 plink 格式转为 phylip 格式。另外有一个脚本可以将 vcf 格式转换为 phylip ,vcf2phylip.pyrun_pipeline.pl -Xmx50G -plink -ped snp.ped -map snp.map -export snp.phy -exportType Phylip_Inter

2020-11-29 19:43:48 13650 5

原创 全基因组关联分析(GWAS):LD Block

画LD block用的比较多的有两个软件,一个是haploview,另一个是R包LDheatmap。haploview数据导入传说plink可以直接转化出HV格式(参数 --recode HV),但是用的时候提示没有case/control表型,不知如何解决。因此自己将plink格式转换为Linkage formate格式Linkage formate格式有两个文件:ped文件和info文件ped文件与plink的ped非常相似:第一列:家系。没有家系可以指定其它唯一ID第二列:个体。第三

2020-11-12 09:40:48 9941

原创 blast 简单使用

安装可以用conda安装构建本地比对库收集mask信息为了屏蔽简单重复序列的干扰,需要收集mask信息。核酸序列算法有windomasker和dustmasker两种。此处用的是dustmasker.dustmasker -in genome.fasta -infmt fasta -parse_seqids -outfmt maskinfo_asn1_bin -out dust.asnb-in:输入文件-infmt: 输入文件格式-parse_seqids:按序列id解析,此外用了,

2020-11-06 08:31:04 3245

原创 全基因组关联分析(GWAS)软件:gemma

版本:Version 0.94.1输入文件GEMMA 需要四个主要的输入文件,包括基因型、表型、相关矩阵和协变量(可选)。基因型和表型文件可以是两种格式,都是 PLINK binary ped 格式或者都 BIMBAM 格式。不可混用。genotype 文件接受比较多的输入类型,这是用的 plink 格式:GEMMA 识别基因型和表型的 PLINK binary ped 文件格式.该格式需要三个文件:*.bed, *.bim, *.bam,所有文件都有相同的前缀。用户可以用 PLINK 将标

2020-11-02 21:29:20 8543 6

原创 全基因组关联分析(GWAS)软件:MAGMA

MAGMA软件被设计用于基于基因的(gene-based)或基因集的(gene-set-based)的关联分析,可以直接找到与目的性状相关的功能基因或功能模块(如基因调控通路等),也有利于发现由多个微效 SNP 关联的基因。MAGMA 的输入数据可以是原始的基因型数据,也可以是其它关联分析软件的结果(如emmax、gemma等)。本文用 emmax 的关联分析结果作为输入文件,因为 MAGMA 虽然可以用原始数据进行单位点的关联分析,但是它的运行速度没有 emmax 快。1. SNP 注释MAGM

2020-10-30 10:20:50 5052

原创 全基因组关联分析(GWAS)软件:mrMLM

mrMLM 官网介绍,它的优势是先用一个比 Bonferroni 略宽松的标准筛选SNP,然后用多位点遗传模型分析,可以找到更多的与目标性状关联的SNP。不得不吐槽一下,使用体验太差,输入文件不是常用格式(vcf、ped等),也没有解释说明(说明书里的信息基本等于零),逼的我只好看程序代码如何读取数据的。。。;后来发现,R包的文件夹里有个原始数据的示例文件,终于有了点头绪。。。ps:后来终于在bioRxiv上的关于mrMLM 4.0的文章的附件中找到一份比较详细的说明.前言输入文件有三种格式,num

2020-10-28 14:24:59 4486

原创 用GATK进行二代测序数据 SNP Calling 流程:(四)变异过滤

GATK推荐的最好的过滤方式是用 VQSR功能,它通过机器学习算法来判断SNP的优劣,因此至少需要两个已存在的 SNP 数据集,一个是经过验证的高质量 SNP 数据集作为真集(如 HapMap),还需要一个质量不是特别高,允许存在小部分假阳性的数据集做训练集(如,1000G)。这些数据集在人类研究中很容易找到,但是在植物中比较困难,因此本流程用硬过滤(hard-filtering)的方法进行变异过滤。提取SNP和INDELSNP 和 INDEL 的过滤参数有所不同,因此分开过滤。#vcf索引nohu

2020-10-27 21:49:32 20130 10

原创 用GATK进行二代测序数据 SNP Calling 流程:(三)GenomicsDBImport 的多样本变异检测

1. Genomics Database对于群体数据来说,多样本同时时行 SNP Calling 的准确度要优于单个样本的 SNP Calling.GATK3 的多样本 SNP Calling 功能是 CombineGVCFs,GATK4 新出了 GenomicsDBImport功能,官网建议它适合1000个样本以上的 SNP Calling,但是它的另一个优点是可扩展性,即随时可以向 database 里添加新的材料,以扩大群体数量,而不用对旧的数据再从头操作一次。Tips:GenomicsDBIm

2020-10-26 20:51:12 8957 6

原创 用GATK进行二代测序数据 SNP Calling 流程:(二)bwa比对和HaplotypeCaller 变异检测

1. 创建基因组索引bwa index genome.fa2. 查看read group信息,按read group分组, 比对、合并,生成gvcf由于数据太多,无法存储过多的中间文件,因此写了一个脚本,边运行边删除中间文件,过程包括:解压,按read group分组。(RG(read group) 信息非常重要,GATK需要通过RG来判断碱基测序质量。我的一个样品的测序数据可能会来自不同的Cell,不同的lane、flowcell,甚至不同的机器,这在重测序中比较常见。因此,我将一个fastq

2020-10-26 20:14:46 7345 12

原创 用GATK进行二代测序数据 SNP Calling 流程:(一)质控

1. 查看原始reads质量fastqc -t 40 *multiqc ./ -o /testfastqc 软件用于查看每个fastq文件的质量,multiqc软件可以收集fastqc的结果,在大数据量的时候便于查看/test为fastqc的结果文件夹。2.低质量reads处理#用trimmomatic对进行测序数据质量控制#需要一个包含样本名称的单列文件#线程t=8# 模式PE(双端)或者SE(单端)mode='PE'#以下参数适情况修改、添加。#ILLUMINACLIP模式

2020-10-26 15:21:43 3545

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除