自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 资源 (1)
  • 收藏
  • 关注

原创 DipC 构建基因组 3D 结构(学习笔记)

本文主要记录了 DipC 数据的复现过程、学习笔记及注意事项。

2023-09-14 20:50:05 1216

原创 IQtree:使用 SNP 数据构建 有根 系统发育树及踩坑

IQtree 默认构建的是 无根 系统发育树,但 v2.1.3 版本后 IQtree 提供了使用 Lie Markov Model 算法对系统发育树实现 无外群生根 功能(Rooting phylogenetic trees)。但在使用过程中,由于功能较新,IQtree 在 处理 SNP 数据 的过程中包含较多 Documentation 未说明的 Bug 。本文主要包含两部分:系统发育树生根操作及踩坑内容,不包含生根原理。其中踩坑内容了解即可,可能随着 IQtree 版本的更新而得到修复。......

2022-06-28 16:48:41 6584 1

原创 IQtree:使用 SNP 数据(vcf file)构建玉米群体的 无根 系统发育树

本文为用 vcf 格式的 SNP 数据构建系统发育树的教程,主要包括:Vcf 文件转 Phylip 文件、Phylip 文件输入 IQtree 建树 两部分

2022-06-23 23:31:06 7937 7

原创 教程:群体演化方法分析玉米的驯化与改良

一般文章在筛选 正选择区间 时,大多 不考虑 群体的 演化历史,即不考虑 群体大小 的变化,只进行亚群之间各种群体遗传参数的对比,这可能会产生大量的假阳性。另一方面,研究一般也 不考虑 遗传信息的 迁移。所以作者希望将群体演化历史及遗传信息的迁移纳入选择区间的考量因素中,以提高结果的准确性。值得注意的是,此方法误差的主要来源为 预测 的群体演化历史与 真实 历史间的差异。其中影响预测的因素众多,且较多因素 无法确定,如碱基突变率,有的研究预测结果为 3.3×10−83.3×10^{-8}3.3×10−8,

2022-05-30 17:05:07 2204

原创 教程:群体遗传学方法分析玉米的驯化与改良

本文是 Edward S Buckler、Matthew B Hufford 等人于 2012 年在 NG 上发表的 letter,作为玉米 HapMap2 的子课题。作为资源数据的说明文章,本文没有创新性的方法,内容中规中矩,使用多种群体遗传学分析手段,比较了驯化和改良对玉米基因组的影响。本文可以作为一篇教程,记录在此以便日后查阅方便。绘制系统发育进化树,观察各品系之间的遗传距离;使用 XP-CLR、π、ρ、Fst、Tajima’s D、Fay and Wu’s H、LD、SNP 频率分布 等群体遗

2022-05-28 11:43:40 2422

原创 玉米关联群体:155、368、527 自交系群体简介(Yan Jianbing,2010、2013)

Yang, X., Yan, J., Shah, T. et al. Genetic analysis and characterization of a new maize association mapping panel for quantitative trait loci dissection. Theor Appl Genet 121, 417–431 (2010). https://doi.org/10.1007/s00122-010-1320-y背景前人研究证明,使用关联分析(As.

2022-05-19 21:34:31 3153

原创 研究:利用 溯祖模拟 挖掘与玉米农艺性状相关的 稀有突变(Science 2005)

Wright SI, Bi IV, Schroeder SG, et al. The effects of artificial selection on the maize genome. Science. 2005 Oct 7; 308(5726):1310-1314. doi:10.1126/science.1107891Yamasaki M, Tenaillon MI, Bi IV, et al. A large-scale screen for artificial selection i.

2022-05-12 22:52:01 701

原创 研究:利用古代玉米基因组推断美国玉米群体演化历史(Science 2017)

Genomic estimation of complex traits reveals ancient maize adaptation to temperate North America,Kelly Swarts ,Rafal M. Gutaker,Detlef Weigel,Edward S. Buckler,Hernán A. Burbano,Science,4 Aug 2017 ,DOI: 10.1126/science.aam9425本文的特殊材料是 15 个古代玉米样本的基因组数据,.

2022-05-08 23:05:45 1801

原创 玉米关联群体:NAM(Nested Association Mapping)群体简介(Edward S. Buckler,2009)

本文内容主要摘自下面 3 篇文章:第一篇介绍了 NAM 群体的 构建 及玉米基因组的 重组特征;第二篇介绍了 计算机模拟 下 NAM 群体挖掘 QTL 的 效力;第三篇介绍了 NAM 群体的 应用,使用 NAM 群体挖掘与 花期 相关的 QTL 及特征;Genetic Properties of the Maize Nested Association Mapping Population,Michael D. Edward S. Buckler,Science,7 Aug 2009,doi: 10.

2022-04-29 17:15:24 5401

原创 连锁定位(Linkage Mapping)与关联定位(Association Mapping)

本文主要介绍了育种领域早期(2001年以前)定位 QTL(quantitative trait loci,数量性状基因座)所使用的方法及分子标记。虽然随着分子标记技术的不断更新,定位方法中的许多问题已经得到了有效解决,但有些矛盾是依然存在的。如全基因组测序的普及使人们使用 SNP 作为分子标记,测序能覆盖到的区间中的所有突变位点都会以 SNP 的形式呈现,无 SNP 区间则序列完全一致,再讨论分子标记和 QTL 之间的连锁性已意义不再;但对于测序无法覆盖或与参考基因组无法比对成功的片段,SNP 与缺失片段.

2022-04-13 15:08:20 4116

原创 S/HIC 系列软件:diploS/HIC 利用 CNN 和非定向基因型数据识别 软/硬 清扫

本文内容摘取自 论文:diploS/HIC: An Updated Approach to Classifying Selective Sweeps. Kern AD, Schrider DR. G3 (Bethesda). 2018;8(6):1959-1970. Published 2018 May 31. doi:10.1534/g3.118.200262,引用次数 63。文章提出了新的清扫区识别算法 diploS/HIC,相比于原先的 S/HIC 算法:diploS/HIC 使用 卷积神经网

2022-03-05 21:32:27 996

原创 基因定相(Phasing) 与 SHAPEIT 原理简介

基因定相基因定相(Genotype Phasing、Phasing、Haplotype Phasing、Haplotype Estimation),也称为 单倍体分型、单倍体构建等,表示将等位基因定位到父本或者母本染色体上的过程,即将基因型数据转变为单倍型数据的过程。Estimation of haplotypes from genotype data, known as phasing(Delaneau, O., Marchini, J. & Zagury, JF. A linear compl

2022-03-02 15:24:00 4500

原创 S/HIC 系列软件:partialS/HIC 利用 CNN 识别 不完全软/硬 清扫

内容翻译整理自文章 Discovery of Ongoing Selective Sweeps within Anopheles Mosquito Populations Using Deep Learning, Molecular Biology and Evolution, March 2021。特点相比上一个软件 S/HIC ,本次作者提出的 partialS/HIC 有如下特点:软件使用 89 个群体遗传学统计参数,使用 CNN 作为核心框架。分类细化。从原来的 5 个扩展到 9 个:中

2021-11-06 11:49:23 776

原创 Wright–Fisher 群体模型 特征、拓展及模拟软件

Wright-Fisher (WF) 模型特征群体大小有限,恒定为 NNN 。世代间离散、非重叠 。离散是指子代同时一起出现,并非连续不断的出现。非重叠是指第 nnn 代的个体不会遗留到 n+1n+1n+1 代。可以理解为:群体内亲代同时产生了子代,当子代出现时,亲代个体全部消失。保证了 世代之间互不干扰 ,可以将 世代间遗传 的过程视为一个 马尔可夫链。个体之间随机交配 。通过从第 nnn 代单倍型中随机有放回的抽样,得到第 n+1n+1n+1 代的单倍型。如位点 SSS 在群体中有两种不同的等位

2021-11-05 23:08:00 2793

原创 软件:RAiSD 快速检索硬清扫区间

本文摘自文章 RAiSD detects positive selection based on multiple signatures of a selective sweep and SNP vectors,communications biology,27 June 2018,被引用量 23RAiSD 特点使用 核酸多样性 πππ 、等位基因频谱(Allele Frequency Spectrum,也称 Site Frequency Spectrum,SFS)、LD,3 个群体遗传统计参数作为

2021-09-12 21:14:56 1100

原创 S/HIC 系列软件:S/HIC 利用随机森林识别 软/硬 清扫

内容翻译整理自文章 S/HIC: Robust Identification of Soft and Hard Sweeps Using Machine Learning,PLoS Genet.,2016 March 15,被引用次数 118。S/HIC 软件特色相比已有软件,S/HIC 软/硬 清扫图谱的识别精度 得到了提高。S/HIC 软/硬 清扫图谱中受选择位点的识别更为精准,相比于其他软件,S/HIC 设立了新的分类:软清扫 link 区、硬清扫 link 区。通过 link 区来降低受选

2021-09-12 11:52:21 746 2

原创 研究:随机因素使硬清扫区产生软件效应(Soft Shoulders)

本文摘自文章:Soft Shoulders Ahead: Spurious Signatures of Soft and Partial Selective Sweeps Result from Linked Hard Sweeps文章主要讨论了在时间、距离维度下重组、漂变等随机因素的引入,使选择清扫留下遗传图谱不断磨损。如硬清扫图谱磨损至软清扫,再到中性。作者模拟并计算了各种情况下的多种群体遗传统计参数,通过机器学习模型 SVM 对遗传图谱的类别进行判断,以箱线图、折线图的方式形象展示了各种因素对遗传图

2021-09-08 00:00:15 640

原创 研究:克隆干扰影响下软清扫的消失

本文翻译自文献 Synchronous Waves of Failed Soft Sweeps in the Laboratory: Remarkably Rampant Clonal Interference of Alleles at a Single Locus(Ming-Chun Lee, Christopher J Marx, Genetics, 1 March 2013, https://doi.org/10.1534/genetics.112.148502)名词解释克隆干扰(clona

2021-09-02 09:46:10 883

原创 综述:难以获得充足理论支持的软清扫(soft sweep)

核心观点稀有常态突变固定后大概率会留下硬清扫的群体遗传图谱。常态突变需要有较高的频率,才能在固定时有多种单倍型,呈现出软清扫图谱。中频常态弱有益突变可能留下软清扫图谱。群体中有限量的中频常态弱有害突变可能只能留下少量的软清扫图谱。强有益突变有利与物种快速适应新环境,出现在许多平行演化的案例中。但这种方式难以创造新的功能蛋白,物种可能需要通过大量弱有益、弱有害突变的缓慢积累来进行功能上的创新。表型涉及到的基因越多,或者基因有更多的副本,则相关区间长度的增加使其越容易积累与表型相关的突变。同时,重

2021-08-30 10:46:24 1083

原创 研究:由 Eda 基因的重复固定而导致的棘鱼(Sticklebacks)平行演化

本文摘自文章 Widespread Parallel Evolution in Sticklebacks by Repeated Fixation of Ectodysplasin Alleles研究目的先前的研究发现,淡水棘鱼约在 10,000 到 20,000 年前冰川广泛融化后,从海水棘鱼演化而来。但世界各地的淡水棘鱼都表现出相同演化趋势 —— 骨甲厚度降低。为了揭示这种平行演化背后的分子机制,作者设计并完成了此研究。核心观点巨大的变化可以通过相对简单的遗传机制产生(如单突变)。平行进

2021-08-27 21:15:50 854

原创 研究:实验选择下细菌有益突变的分布特征

本文摘取自文献 Kassen, R., Bataillon, T. Distribution of fitness effects among beneficial mutations before selection in experimental populations of bacteria. Nat Genet 38, 484–488 (2006). https://doi.org/10.1038/ng1751实验目的验证极值理论:有益突变的适应度成指数型分布突变具有多效性,少量的突变会提

2021-08-16 16:46:11 242

原创 综述:演化遗传学发展历史简介

本文主要翻译并精简自文章:Orr, H. The genetic theory of adaptation: a brief history. Nat Rev Genet 6, 119–127 (2005). https://doi.org/10.1038/nrg1523名词解释自然适应(Adaptation):指群体向最适合当前环境的表型所进化的过程。常设遗传变异(Standing Genetic Variation):指在群体中已长期存在的变异,而非新出现的变异。微突变理论(Microm

2021-08-15 20:59:22 715

原创 在 Conda 上发布 python 包

本文主要介绍如何将自己编写的 package 上传至 conda。需要重点理解的是:conda 打包时的文件路径conda 打包时的工作环境meta.yaml 文件的编写方法build.sh 文件的编写方法测试脚本及测试环境理解上述重点就可以轻松的将各类 package 上传至 conda,本文以我编写的 python 包 cropgbm 为例进行介绍。cropgbm 的代码可以在 https://github.com/YuetongXU/Cropgbm-Conda 中获取。Conda

2021-07-07 17:11:52 2607 3

原创 在 PyPI 上发布 python 包

PyPI(Python Package Index)是 Python 官方的包存储仓库。PyPI 推荐使用 pip(python install packages,Python 包管理工具)来下载储存在 PyPI 库中的 python 包。本文内容主要介绍如何在 PyPI 上发布自己编写的 python 包。参考链接:https://www.osgeo.cn/python-packaging/tutorials/packaging-projects.html自己编写好的 python 项目存放在

2021-06-28 20:42:44 566 1

原创 Pandas 踩坑 dataframe.index.values

当对 dataframe.index.values 返回值进行修改时,也会影响到 dataframe 的 index。a = pd.DataFrame(np.array(range(16)).reshape(4, 4))print(a)========================= 0 1 2 30 0 1 2 31 4 5 6 72 8 9 10 113 12 13 14 15=====================

2021-06-27 21:50:28 1673

原创 conda 功能及操作简介

conda 分为 anaconda 和 miniconda。anaconda 是包含 python、conda 及一些常用包的版本,如 numpy、pandas、scipy等,anaconda 下载文件较大,约 531 MB。miniconda 是 anaconda 的精简版,仅包含 conda 和 python,其余安装包需要自己手动安装。推荐使用 miniconda。conda 是一个开源的 包管理系统和环境管理系统。python 的库非常广泛,但随着 python 版本的不断更新,许多未更新的库与最

2021-06-14 15:12:28 2111 1

原创 植物纳米探测器简介 | 综述(Nanobiotechnology approaches for engineering smart plant sensors)

本文主要摘自综述文章:Nanobiotechnology approaches for engineeringsmart plant sensors,JP Giraldo, H Wu, GM Newkirk, S Kruss,Nature nanotechnology,2019,https://doi.org/10.1038/s41565-019-0470-6,简要介绍了纳米探测器的类型、原理、应用和局限。概述生物纳米探测器是一种用于检测生物体内化学信号的纳米级探测器。探测器本质上是一种信号转化器

2021-04-05 22:22:50 1430

原创 高光谱与农业(一)植物叶片的反射、吸收光谱

以下内容主要摘自 R. A. Moss 和 W. E. Loomis 于 1952 年发表的文章 Absorption Spectra of Leaves. I. The Visible Spectrum。我们知道计算吸收光强的公式为 A = I - (R + T),其中 I 为发射光强、R 为反射光强、T 为透射光强,若要得到 A 则需要准确计算 R、T。由于植物的反射光存在大量漫反射,准确计算 R、T 需要对植株全方位的收集反射光。这使得在早期植物叶片光谱研究和实际生产应用中主要集中于反射光谱。Di

2021-03-11 16:13:31 5841

原创 利用 DIAMOND、MCScanX、TBtools 分析物种基因组间的共线性区段与基因复制事件

本文通过 4 个兰花的基因组注释,主要利用 MCScanX 软件分析 NB-ARC 基因家族在不同物种间的共线性区段以及基因复制事件。步骤参考文献 Genome- Wide Analysis of the Nucleotide Binding Site Leucine-Rich Repeat Genes of Four Orchids Revealed Extremely Low Numbers of Disease Resistance Genes,Front. Genet.,08 January 202

2021-01-29 10:41:43 23619

原创 利用 OrthoFinder、IQtree、Notung、iTOL 绘制基因树

为了探索四个兰花中NBS-LRR基因的关系,基于保守 NBS结构域 的比对氨基酸序列,重建了系统树。为了避免受到“嘈杂字符”的干扰,从系统发育分析中排除了太短或差异很大的序列。系统发育分析是使用基于最大似然算法的IQ-TREE完成的。最合适的模型是通过IQ-TREE内嵌的ModelFinder估算得到。分枝支持值通过IQ-TREE内嵌的UFBoot2进行评估。比例尺指示遗传距离。来自基底被子植物Amborellla trichopoda的TNL基因被用作外群。此外,通过使用Notung软件将NBS-LRR基

2021-01-15 21:04:17 10902 8

原创 MUSCLE、IQtree 软件及使用简介

本文以 4 个兰科物种的 252 个 NB-ARC domian 蛋白序列信息为数据集,介绍 MUSCLE、IQtree 的使用,最后构建出包含 252 个蛋白的无根进化树。MUSCLEMUSCLE 是一款可以用于快速多序列比对的软件,相比 ClustalW 而言在不损失精度的情况下速度提升了数倍。MUSCLE 下载使用 apt 下载 sudo apt install muscle使用 conda 下载 conda install muscleMUSCLE 使用 mus

2021-01-15 11:07:40 14080 10

原创 OrthoFinder 2.0 原理及所涉及的相关概念

文章内容主要参考:https://github.com/davidemms/OrthoFinderhttps://davidemms.github.io/OrthoFinder 功能查找直系同源组和直系同源物推断所有直系同源组的有根基因树识别基因树中的所有基因重复事件推断有根物种树,并将基因复制事件从基因树映射到物种树上为不同物种基因组间的比较分析提供全面的统计信息OrthoFinder 功能及优势使用 DIAMOND 软件进行 blast,大幅提高 blast 速度。使

2021-01-11 11:27:30 12259

原创 使用 MEME 分析不同类型的 NB-ARC 结构域中 Motif 的差异

NBS-LRR 基因家族是一种常见的抗病基因家族,该基因家族在所有抗病基因中占比超过 60%。一般被子植物的基因组中包含数百个 NBS-LRR 基因家族的基因。NBS-LRR 基因家族编码的蛋白可以分成 3 个结构域,TIR/CC/RPW8 + NBS + LRR,根据蛋白 N 端的结构域可以将 NBS-LRR 分为三类:T (TIR) NL、C (CC) NL 和 R (RPW8) NL。本文通过使用 MEME 工具包来分析 TNL、CNL、RNL 三类蛋白中 NBS 结构域的差异。数据集为从 www

2020-12-28 15:47:00 6767 3

原创 MEME 使用简介

MEME 是一款用于研究 Motif 的 组合工具套。Motif 是指在一组序列中重复出现的相似的序列模式(pattern)。MEME包含多个小工具,如 MEME、STREME、 CentriMo、 AME、 FIMO、 Tomtom 等等。MEME 工具套的功能全面,包括 挖掘 Motif(Motif Discovery)、富集 Motif(Motif Enrichment)、查询 Motif(Motif Scanning)、比较 Motif(Motif Comparison)。以下内容参考 MEME

2020-12-23 09:35:03 16081

原创 向 github 提交本地修改

一、确定本地是否有 github 的对应仓库(Repositories)通过命令 $ ls -a 查看文件夹下是否有隐藏文件夹 .git若有,则该文件夹为仓库文件夹。若没有,则需要创建一个本地的仓库文件夹。如在文件夹 cropgbm_en_git 下通过命令 $ git init 将该文件夹变成 git 可以管理的仓库。二、查看仓库文件夹关联的远程仓库(github)若仓库为新建仓库,使用命令: $ git remote add origin https://github.com/iBr

2020-11-24 08:44:58 465

原创 文章:叶绿体 rRNA 甲基转移酶 CMAL 在核糖体形成和植物发育中的关键作用

INTRODUCTION核糖体 RNA(rRNA)中核苷酸的甲基化是在所有活生物体中普遍存在的特征。目前对 RNA 甲基化酶的结构及其如何对 RNA 进行甲基化有了一定的了解,但是对质体中 RNA 甲基化过程以及甲基化对生理过程的影响仍然知之甚少。迄今为止,在植物叶绿体内通过实验鉴定出了三种形式的 RNA 甲基化,但尚未有人研究出导致上述 RNA 甲基的甲基转移酶。本研究中,作者在拟南芥的叶绿体中鉴定出了一种 rRNA 甲基转移酶 CMAL(Chloroplast MraW-Like)。 CMAL 可以将

2020-11-22 23:03:13 1709

原创 使用 Blastp 和 Hmmer 筛选出包含特定结构域的蛋白

关键词 blastp,Hmmer,hmmsearch,hmmscan,Pfam,NCBI CDD本文对 4 种兰花(Apostasia shenzhenica、Phalaenopsis equestris、Dendrobium catenatum、Gastrodia elata)的基因组使用 Blastp 和 Hmmer 两个基于不同算法的软件,筛选出包含 NBS-LRR 结构域的蛋白。简要步骤Apostasia shenzhenica、Phalaenopsis equestris、Dendrobi

2020-11-19 16:25:03 15892

原创 综述:Reading, writing and erasing mRNA methylation

以下内容为翻译并精简文章《Reading, writing and erasing mRNA methylation》后所得,文章于 2019.10 发表于《naturenature reviews molecular cell biology》,是一篇介绍 RNA 甲基化内容的综述。AbstractRNA甲基化可在mRNA中形成N6-甲基腺苷(m6A),这是最丰富的mRNA内部修饰,已成为控制各种生理过程中基因表达的广泛调节机制。全转录组的m6A定位揭示了m6A在细胞RNA中的分布和模式,称为表观转录

2020-11-09 16:25:30 2655 1

原创 LightGBM 挖掘 SNP 的注意事项

1. 决策树难以挖掘到有意义的稀有突变每次节点所选择的特征是对整体影响最大的特征,而越靠近树根时,集合内样本数量越大,越混乱,越难分离出异常值,进而也就越难选择对表型有显著影响的稀有突变。而当节点越靠近叶片时,集合内样本数量越少,在群体中 MAF 越高的 SNP 越有可能在子集中有两种基因型,从而对子集有区分能力。对于在群体中 MAF 低的 SNP 在样本数量越少的子集中越可能只有一种基因型,从而无法对子集进行区分。同时,由于子集中 SNP 的特定基因型样本数量需 >= 叶内最小样本量,所以该

2020-10-20 23:11:18 538

原创 文章:Mapping regulatory variants controlling gene expression in drought response and tolerance

样本:224个植株的叶片条件:3种浇水处理转录组:627,WW (209)、WS1 (208)、WS2 (210)一个植株测3次转录组,均在营养生长的2-3阶段,不同的地方在分别测定正常浇水、停止浇水9天 (含水量70%,WS1)、停止浇水13天 (含水量58%,WS2) 进行采样测定的转录组数据。设计目的:1. 可以严格控制基因型变量,即对照组与实验组之间基因型完全相同;2. 植株在干旱等逆境条件下的生长速率会降低,所以干旱13天和正常生长13天植株所处的生长阶段是不同的,由于转录组会随着时间变化,

2020-09-18 17:16:24 1181 1

IQtree:使用 SNP 数据(vcf file)构建系统发育树(数据)

对应博客:IQtree:使用 SNP 数据(vcf file)构建系统发育树

2022-06-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除