自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 基于vcf文件计算位点频谱SFS——easySFS

位点频谱(site frequency sperum)是使用遗传数据进行群体历史研究的基础数据,easySFS.py将可以将划分好群体的snp.vcf文件转换为SFS,该脚本输出可适用于和∂a∂i两个进行群体历史研究的主流方法。

2024-01-26 17:20:57 986

原创 快速排序的背后——深入理解时间复杂度

时间复杂度的概念衡量算法性能的重要标准,是算法设计和性能优化中的关键概念,对于编写高效、稳定和可扩展的程序至关重要。但是,初学者对于如何理解和应用时间复杂度则显得较为困难,本文以快速排序为例进一步加深对时间复杂度的理解。

2024-01-13 12:25:09 889

原创 列表解析与快速排序

排序是在对文本、数值等数据进行操作时常用的功能,本文介绍两种常用的排序方式,借此学习列表解析,并巩固递归算法。

2024-01-13 10:17:10 868

原创 递归——简单粗暴的问题解决方式

递归(recursion)是一种在函数定义中使用函数自身的编程技术。在递归中,一个问题被分解为一个或多个更小的子问题,这些子问题与原始问题具有相同的结构。通过解决这些子问题,最终可以解决原始问题。

2024-01-11 17:18:52 382

原创 基于经纬度信息提取气候因子图层数据

在进行生物地理学研究时,我们时常会涉及到提取特定位置的气候变量值,而ArgMap操作过于麻烦(主要是要付费),而R包raster提供的功能完美解决了该问题。

2023-12-21 16:36:08 965

原创 基于GATK流程化进行SNP calling

在进行时,以群体基因组重测序数据为例,涉及到的个体基本都是上百个,而其中大多数流程均是重复的步骤。本文将基于GATK进行SNP calling的流程写入循环,便于批量分析。

2023-11-20 10:45:04 424

原创 基于GATK(Genome Analysis Toolkit)进行SNP calling

(Genome Analysis Toolkit)是进行DNA和RNAseq数据变异检测的常用工具,目前已成为变异检测的“金标准”。本文提供其与其他软件联合使用进行SNP calling的方法。

2023-11-20 09:58:44 752

原创 使用pixy计算群体遗传学统计量

过滤参数:过滤掉次等位基因频率(minor allele frequency,MAF)低于0.05、哈达-温伯格平衡(Hardy– Weinberg equilibrium,HWE)对应的P值低于1e-10或杂合率(heterozygosity rates)偏差过大(± 3 SD)的位点:去除杂合率(heterozygosity rates)偏差过大(± 3 SD)的个体:假设,基于Plink生成的文件中会包含命令行输出,使用sed。

2023-11-15 21:01:14 967 4

原创 使用Maxent模型预测适生区

Maxent模型因其在潜在适生区预测中稳健的表现,时下已经成为使用最广泛的物种分布模型。biomod虽然可以通过集成模型的优势来弥补数据量较小的劣势,但是其在使用和运算时间上的优势远不如Maxent,虽然最新的biomod2已经修复了一些bug,不过在使用中仍是会遇到很多问题。

2023-11-15 20:46:41 1267

原创 GWAS全基因组关联分析实战——基于Plink转换vcf数据为二进制

vcf数据是保存变异信息的主要数据格式,plink是进行全基因组关联分析(GWAs)分析的常用工具包,同时提供一系列数据转换、裁剪和遗传统计量计算工具。本文以实际数据提供基因组关联分析方法。

2023-11-13 17:26:25 1287

原创 clermontyping安装使用

clermontyping是进行细菌分型的有效工具,本文解决依赖关系,提供基本调用方法。

2023-10-23 17:22:51 168

原创 二分查找——算法基础

二分查找是在执行检索时高效简单的算法,但是其是否在任何情形下都适用呢?本将简单介绍二分法,并以此引入一些算法的基本概念。

2023-07-08 09:08:17 149

原创 Selective sweep与Genomic island

最近在阅读文献时遇到了==“genomic island”“selective sweep”==比较难理解。之前在一篇综述()中我一度以为自己已经理解了此概念,但是将自己理解的概念运用到研究性文章中却发生了诸多不符……

2023-05-14 20:06:20 326

原创 GATK安装及java环境配置

gatk检测SNPs的工作大多数都是重复性的命令,众所周知,重测序数据少则几百个,多的参考人类基因组。将嵌套入循环脚本中进行工作无疑是最高效的做法(一开始为了方便,我是直接使用conda的安装方法,但是在脚本内反复切换环境常会出错(大多数都是我的操作不当),为了解决这一麻烦,不得不自己安装编译版……

2023-05-10 16:03:59 3560

原创 主成分分析(PCA)原理及应用

PCA在进行统计学分析中往往面临着比较难以抉择的权衡。以农学研究为例,在实验设计时,考虑到研究结论更能反应作物真实状态下的农艺性状,研究人员会尽可能的纳入较多的指标,但是,随着而来的是铺天盖地的数据让人难以下手,(principal component analysis,PCA)便很好的解决了这一问题。在生物学相关(因为我主要从事生物学研究 ^ _^)领域,应用范围极广。光我接触过的便有数种:群体遗传学遗传成分的划分、代谢组学关键化合物的分离、群落学不同群落差异的评估、环境DNA组分的划分……

2023-04-29 22:01:07 1336

原创 SNPs检测——建立参考基因组索引

检测SNPs位点是利用的第一步,而基因组大小,以植物为例,多数都超过了500Mb,所以如何高效的利用参考基因组信息成为了生物信息学分析的一大问题。通过提取的关键信息,建立,以适应各工具包的工作需要是检测变异数据的第一步。

2023-04-26 23:51:55 1829 4

原创 siRNA vs. miRNA

(gene silencing)是生物体中重要的分子生物学过程,一般由(small interference RNA)和(micro RNA)介导。而两种RNA由于其复杂的作用机制和高效的沉默效率,在过去20年来都是分子生物学研究的热点。由于两者的作用机制比较类似,所以在概念上极易混淆。

2023-04-16 23:35:20 598

原创 记录自己在编译安装samtools时犯下的低级错误

condasamtools最近在进行基因组SNPs的检测工作,在进行完一个read group的检测工作后,为了了解操作是否正确,想使用查看去重复后的比对情况。因为之前吃过环境污染的亏,所以习惯性的使用conda工具进行软件的安装和对应软件工作环境的管理,但是部分软件包由于其特殊性,conda环境下可能某些功能无法实现,比如samtools……

2023-04-14 18:17:31 726

原创 安装conda搭建个人生物信息学平台(Linux-centOS)

conda的安装与使用

2023-03-10 15:41:43 1005

原创 捕食者猎物模型

捕食者——猎物模型推导

2022-12-25 23:07:33 884

原创 方差分析(ANOVA)的基本原理及R实现(单因素)

方差分析基本原理和单因素方差分析R实现

2022-12-17 13:41:22 12707

原创 Lotka-Volterra竞争模型

Lotka-Volterra竞争模型

2022-12-16 14:49:14 2096

原创 基因组特征评估——k-mer analysis

k-mer分析原理,及jellyfish的应用

2022-12-09 22:07:31 1954

原创 GenomeScope——jellyfish k-mer分析的下游分析

genomescope2.0的安装和应用

2022-12-09 22:02:56 1775

原创 SRA Toolkit简单使用

sra toolkit的安装、配置与基本功能的使用。

2022-12-05 19:35:52 2275

原创 连锁不平衡及LD decay analysis

连锁不平衡

2022-11-18 11:12:25 2272 1

原创 理论生态学导论

斐波那契数列

2022-11-02 23:39:53 74

原创 Allee效应与Leslic矩阵

Allee effects 和Leslic matrix

2022-10-27 23:34:10 227

原创 种群大小的指数增长模式

种群的指数增长

2022-10-27 23:31:49 342

原创 分叉与逻辑斯蒂映射

逻辑斯蒂映射

2022-10-21 23:39:54 674

原创 种群大小与logistic方程

种群的指数增长和逻辑斯蒂方程

2022-10-19 21:31:22 98

原创 GWAs——全基因组关联分析三(关联分析)

GWAs——全基因组关联分析三(关联分析)

2022-10-09 10:27:55 815

原创 GWAs——全基因组关联分析二(质控2)

GWAs——全基因组关联分析(质控2)

2022-10-02 00:38:43 456

原创 GWAs——全基因组关联分析(质控1)

本内容参考AndriesT. Marees等方法(DOI:10.1002/mpr.1608),使用的程序包为PLINK v1.9,二进制数据来自的模拟数据(祖先来自欧洲西北部的犹他州居民),包含三个二进制数据“.bed”,包含所有患者和健康对照的基因型信息(次文件内容为二进制数据,方便计算机读取,不便于肉眼查看)。“.fam”,包含研究个体的谱系关系(父、母本)、性别和表型信息等。“.bim”,包含SNPs的位置信息(Table 1)。Table 1:PLINK支持的二进制文件后缀内容信息.bed。

2022-09-25 15:35:49 1183

原创 GWAs——全基因组关联分析流程

GWAs基本流程

2022-09-19 20:35:57 7925

原创 火山图——直观的特征差异可视化

火山图的绘制及解读。

2022-09-05 23:57:37 7153

原创 使用biomod2生成虚拟负样本(pseudo-absences)

biomod2包示例代码运行,并讲解四种虚拟负样本(pseudo-absences)生成方法的原理

2022-06-27 22:23:26 1405 5

原创 使用ArcMap模仿biomod2输出的物种分布图

ArcMap对R产出的分布图进行模拟

2022-06-14 18:42:13 1338 2

原创 biomod2简介及Gulo gulo分布模型案例解读

biomod2简介及Gulo gulo分布模型案例解读

2022-06-12 11:36:14 7110 12

原创 Species Distribution Models简介及biomod2的安装

SDMs物种分布模型简介及biomod2包的安装

2022-06-09 22:26:02 3597 3

fastsimcoal28

群体遗传学溯祖模拟工具fastsimcoal帮助文档。

2024-01-24

jellyfish帮助文档

jellyfish帮助文档。在进行基因组组装之前,对基因组进行简单的评估,以获取基因组大小、杂合度、重复序列等特征有助于我们概括性的了解将要获取的基因组的大致信息,k-mer analysis是获取概括性基因组信息的常用程序。jellyfish是进行k-mer analysis的实用程序包。

2022-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除