生信
文章平均质量分 52
生信学习记录。
Gossie
不恋虚名列夏花,洁身碧野布云霞。寒来舍子图宏志,飞雪冰冬暖万家。(--左河水)
展开
-
ComplexUpset的简单使用记录
用ComplexUpset画Upset图原创 2022-06-06 17:28:47 · 1444 阅读 · 1 评论 -
全基因组haplotype基因型分析软件:GHap
首先,emm,”G“是”Genome-Wide"的缩写。R语言 GHap 包用于从"定相后(phased)的SNP数据"构建全基因组haplotype,及对其频率、基因型等进行分析。Haploview和Plink等软件可以分析haplotype block,但似乎无法输出各个样本的haplotype基因型,也就无法进行很多下游的分析,如基于haplotype-based GWAS,GHap包填补了这个空白。对Haplotype的定义方法有很多,常用的方法有以下两种:使用LD进行定义,参考 ”Gab原创 2021-11-29 16:43:42 · 4804 阅读 · 20 评论 -
conda的安装和使用-linux系统.md
1. 安装 conda如果安装过python的衍生版本anaconda,那么你就已经安装过conda了。若没有就去官网下个安装包wget -c https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.shchmod 777 Miniconda3-latest-Linux-x86_64.sh sh Miniconda3-latest-Linux-x86_64.sh 2. 使用- conda -h 这是首先要原创 2021-11-17 13:40:11 · 624 阅读 · 0 评论 -
非模式生物KEGG富集分析: clusterProfiler
用到的软件:clusterProfiler(感谢Y叔)对于非模式生,可以先做KEGG注释,用注释文件直接进行计算,GO富集同理。用到三个文件1.背景基因的注释信息(所有可以注释到的基因),两列2.ko的描述信息文件,两列3.差异基因文件(软件会自动删掉没有注释到的基因),一列library(clusterProfiler)term2gene <- read.table('gene-ko-K.txt',sep = '\t')term2gene <- term2gene[,c(2,原创 2021-08-03 14:51:01 · 3718 阅读 · 0 评论 -
转录组分析流程:表达差异分析之edgeR
edgeRedgeR是非常经典的转录组表达差异分析软件。此外,HTSFilter软件用于差异表达基因过滤,相比过于严格的多重检验,HTSFilter能检测到更多的差异表达基因。HTSFilter需要有生物学重复。样本量:72个转录组样本library(edgeR)library(HTSFilter)fc <- read.table('counts.txt',header=1,row.names="Geneid") #counts矩阵,有表头group <- as.factor(st原创 2021-04-25 17:05:20 · 2445 阅读 · 0 评论 -
转录组分析流程:比对(有参)及统计Counts矩阵
样本:ChengShuaiShuai 早熟转录组 72个Ref: UTX_TM1_2.11. 质控fastqc *multiqc *trimmomatic_run.sh #去掉前9个碱基2. 比对gffread annotation.gff3 -T -o annotation.gtfhisat2_extract_splice_sites.py .UTX.gtf >UTX.gene.sshisat2_extract_exons.py UTX.gene.gtf >UTX.ge原创 2021-04-24 19:55:56 · 2692 阅读 · 0 评论 -
全基因组关联分析(GWAS)软件:emmax
emmax 的优点是操作简单,运行速度非常快,几百万的SNP也可以半小时内跑完。1. 基因型格式# 转换成合适的格式nohup plink --vcf snp.vcf.gz --recode 12 --output-missing-genotype 0 --transpose --out snp --allow-extra-chr &注意:emmax 接受plink的长格式。基因型需要先 imputation,不能有缺失,且只识别双等位位点。snp ID (tped 文件第二列,不原创 2020-12-29 20:37:22 · 7026 阅读 · 1 评论 -
群体结构分析:用 phylip 构建进化树
用 phylip 构N-J树在 linux 系统,可以用 conda 安装 phylip 软件1. 将 SNP 文件转换为 phylip 格式用 tassel 的格式转换功能将 plink 格式转为 phylip 格式。另外有一个脚本可以将 vcf 格式转换为 phylip ,vcf2phylip.pyrun_pipeline.pl -Xmx50G -plink -ped snp.ped -map snp.map -export snp.phy -exportType Phylip_Inter原创 2020-11-29 19:43:48 · 15085 阅读 · 5 评论 -
blast 简单使用
安装可以用conda安装构建本地比对库收集mask信息为了屏蔽简单重复序列的干扰,需要收集mask信息。核酸序列算法有windomasker和dustmasker两种。此处用的是dustmasker.dustmasker -in genome.fasta -infmt fasta -parse_seqids -outfmt maskinfo_asn1_bin -out dust.asnb-in:输入文件-infmt: 输入文件格式-parse_seqids:按序列id解析,此外用了,原创 2020-11-06 08:31:04 · 3373 阅读 · 0 评论