生信分析笔记-CSDN博客

原创基因之河，表型之舟 | 论基因和表型的关系

这些调控因素可以根据生物体的需要和环境的变化，灵活地调整基因的表达水平，从而影响表型的呈现。而表型，则是基因表达的舞台。通过表型组学的研究，我们可以发现新的基因与表型之间的关联，为疾病的诊断和治疗提供新的思路。通过不断的努力和创新，我们相信未来我们将能够更加深入地理解基因与表型之间的关系，为人类社会的发展和进步做出更大的贡献。这样，经过长时间的演化，生物体逐渐适应了环境的变化，形成了今天各自独特的形态和特征。随机因素，如基因突变、环境波动等，可能在生物体的发育过程中产生不可预测的影响，导致表型的变异。

2025-02-26 18:12:08 792

原创 R语言运行速度太慢？提速技巧

然而，随着数据规模的增大和计算任务的复杂化，R语言的性能问题逐渐成为用户关注的焦点。本文详细介绍R语言性能提升的多种方法，从基础优化到高级技巧，希望对您有所帮助。Rcpp是R语言与C++的接口包，允许用户编写C++代码并将其集成到R中。R语言提供了多种数据结构（如矩阵、数据框、列表等），选择合适的数据结构可以提升性能。R语言作为数据分析和统计建模的利器，凭借其丰富的包生态系统和灵活的语法，深受数据科学家和生物信息学家喜爱。profvis包是R语言的性能分析工具，可以帮助用户定位代码中的性能瓶颈。

2025-01-09 21:25:55 878

原创什么是顺式调控与反式调控？

在基因调控的奇妙世界里，顺式调控元件宛如基因的“贴身管家”，它们就位于基因附近，通过与各种转录因子的相互作用，精确地调控着基因的转录过程，决定着基因何时“发声”，以及“声音”的大小。同时，特定的转录因子（反式调控因子）被激活，它们识别并结合到与抗旱相关基因的顺式调控元件上，促使这些基因大量表达，合成如脯氨酸、甜菜碱等渗透调节物质，增强植物细胞的保水能力，还会启动抗氧化基因的表达，帮助植物清除因干旱产生的过多活性氧，减轻氧化损伤，共同助力植物在干旱环境中顽强生存。这一切的奥秘，就藏在基因调控之中。

2025-01-07 12:03:44 1026

原创遗传学的“正反”之道：探寻生命密码的两把钥匙

通过这种从基因层面的改造，棉花获得了抗虫的表型特征，不仅减少了化学农药的使用，保障了棉花的产量，还降低了对环境的污染，实现了农业生产与生态保护的双赢。它让我们在面对复杂的生命系统时，不再仅仅是被动的观察者，而是能够主动出击，按照需求定制生物的某些特性，为解决生物学面临的诸多难题提供了创新性的解决方案。与正向遗传学不同，反向遗传学像是一位精密的工程师，它反其道而行之，从已知的基因序列出发，通过现代分子生物学技术，有目的地改变某个特定的基因或蛋白质，然后像观察多米诺骨牌一样，仔细探寻随之而来的表型变化。

2025-01-06 21:20:41 1198

原创 R语言安装教程与常见问题

安装完成后，桌面会生成一个“R”的快捷方式，双击打开，你就可以在R环境中开始写代码了，但是一般我们还会再安装一个Rstudio软件（现在公司改名为Posit），这个是一个集成开发环境，如虎添翼。Windows操作系统的用户是大多数，不用担心，R语言安装在Windows上非常简单，基本可以用一句话总结：“去官网，点下载，狂点下一步。点击环境变量，在系统变量中找到Path，然后添加R的bin路径，比如C:\Program Files\R\R-4.x.x\bin。安装依赖包的时候可以用国内的镜像站加速！

2025-01-05 22:26:27 753

原创什么是GWAS全基因组关联分析？

我们有10个样本，每个样本都有测量的高度和一个SNP的基因型数据。固定效应估计：截距项是植株的基础高度，SNP效应是斜率，固定效应部分告诉我们，SNP基因型与植物高度之间是否存在关联。在全基因组关联分析（GWAS）中，混合线性模型（MLM）是一种广泛应用的统计方法，用于控制群体结构和亲缘关系对关联分析的干扰。固定效应（Fixed Effects）：指感兴趣的因素，其效应是固定的、可重复的。公式左边K表示个体的亲缘关系系数，m表示总的SNP数量，g表示SNP等位基因的编码，p表示SNP等位基因的频率。

2024-09-13 16:27:18 7595

原创 Python神经网络在基因组学中的应用

在基因组学研究中，神经网络作为一种强大的工具，被广泛应用于基因型和表型之间的关联分析。本文将详细介绍如何使用Python实现这一过程，利用已知群体的基因变异数据和表型数据来构建模型，并应用于新样本表型预测。基因型数据通常是一系列的遗传变异，比如SNPs（单核苷酸多态性），而表型数据则是与这些遗传变异相关的性状测量值。本文介绍了如何使用Python和神经网络技术对基因型和表型构建模型，并利用训练好的模型进行表型预测。在构建模型之前，需要对数据进行标准化或归一化，以提高模型的表现。如何构建神经网络模型？

2024-08-26 15:10:19 558

原创 Nature | 小麦D基因组的起源和演化，野生近缘种对作物抗病改良具有重要潜力

a图展示了小麦D基因组的各亚群比例。发表Origin and evolution of the bread wheat D genome研究论文，通过研究粗山羊草（Aegilops tauschii，也被称为节节麦），即面包小麦D基因组的供体，建立并分析了广泛的基因组资源，揭示了面包小麦D基因组的复杂演化历史，并发现了潜在的遗传多样性。小麦D基因组的遗传多样性不仅来自主要的L2亚群，还包含了L1和L3亚群以及其他不同地理来源的亚群的贡献，为利用野生小麦亲缘种的遗传资源进行作物改良提供了新的视角。

2024-08-24 10:16:44 1420

原创群体遗传进化Pi和Fst、XP-CLR计算方法

首先，咱们都知道时间不会停止，也就意味着历史的车轮不会停止，自然界一直在不断地演化，不管是动物还是植物，都在不停的选择和分化。假设种群中的某个等位基因对特定环境的适应度较高而经历适应性选择，那该基因的频率在种群中会升高，种群的分化水平增大，群体Fst升高。以前非洲大草原有短颈鹿，后来偶然的突变导致长颈鹿产生，由于长颈鹿能吃到更多的食物，有着更高的存活率，所以导致这个突变受到正选择。如果群体中的某个个体出现一个致命的突变，从而使自己或者是后代从群体中被淘汰，这也导致群体中该位点的多态性的降低。

2024-08-19 21:42:16 3562

原创快速了解R语言ggplot2绘图逻辑

此外，图形中还可能包含数据的统计变换(statistical transformation，缩写stats)，最后绘制在某个特定的坐标系(coordinate system，缩写coord)中，而分面(facet)则可以用来生成数据不同子集的图形。以上是一个简单的示例，翻译成人话将是：使用iris数据绘制散点图，使用Length作为x轴，Width作为y轴，绘制红色半透明的散点图，然后再绘制一条lm的拟合曲线，不显示置信区间。，一个好看的ggplot2图片离不开图层的映射。ggplot函数包括9个部件。

2024-07-16 17:20:54 555

原创快速从fasta序列文件中提取指定序列的方法

假如我有一个fasta序列文件，里面有>开头的行是ID信息，之后的内容是序列信息，如果有成千上万条序列，如何从中找到需要的序列？extract_fasta_sequences 函数从输入的 FASTA 文件中提取指定 ID 的序列，并将它们写入到输出文件中。运行脚本后，指定 ID 的序列将被提取并保存到 output.fasta 文件中，你可以根据需要修改文件路径和目标 ID 列表。你可以使用 Python 脚本来处理 FASTA 文件，从中提取指定 ID 的序列并生成新文件。

2024-07-12 17:06:52 4286 1

原创提取VCF文件中样本清单的方法

对于复杂替换或大文件，推荐使用bcftools或Python脚本。根据具体需求和环境，选择合适的方法进行批量修改替换VCF文件中的样本ID。首先，需要创建一个包含新的样本ID的文件，然后使用该文件进行替换。今天分享的笔记是对VCF文件中的样本ID进行提取和替换的方法，主要是用linux系统下的bcftools和Python实现。可以使用pysam库编写Python脚本，读取VCF文件，替换样本ID并保存为新文件。打开VCF文件并查看文件头部（以##开头的行），样本ID通常位于以#CHROM开头的行之后。

2024-07-10 14:30:53 1457

原创 MP | 基于kmer的泛基因组分析方法及应用

在139个SSP基因中，有8个基因存在于超过95%的材料中，这些被定义为核心基因，有26个基因存在于80-95%的材料中，被定为普通基因，有76个基因存在于5-80%的材料中，被定为可替换基因，另外还有29个基因存在于5%内的材料中，被定为特化基因。组装后的1BL/lRS基因组携带Sec-1，ω-secalin 2 ，ω-secalin 3和含有两个活性基因的Sec4位点，利用PanSK确定了这些特殊蛋白所特有的k-mers，并对过去40年的77个1BL/lRS易位系的特殊蛋白变异进行了分类。

2024-07-10 10:28:45 1477

原创干货必学|用ggplot2让你的数据可视化作品脱颖而出

在ggplot2中使用geom_curve也可以用来绘制箭头，在绘制的过程中通过指定curvature和angle等参数来调整箭头线段的角度和位置，还可以自定义设置颜色的大小。ggplot2绘图可以使用丰富的色彩搭配，在绘图过程中使用color参数能够设置元素描边的颜色，fill参数能够设置填充的颜色，比如下面设置散点图的色彩。facet_grid函数中第一个参数用于指定分面的规则，比如这里使用的是年份~季节，在实际使用中需要根据数据进行调整，第二个参数用于设置子图的尺度变换。

2024-04-30 10:46:07 1135

原创 R语言绘制动态网络图Network教程WGCNA

在此基础上，我们还可以添加一些额外的信息，比如按照不同的分组将节点赋予不同的颜色，或者根据根据基因之间的正调控和负调控设置连接线的颜色。除了设置节点与节点之间边的关系，还能设置单个节点的参数，比如通过下面的代码设置节点的大小用来表示基因的表达量，表达量高的基因节点直径越大。这里每个节点可以表示一个基因，节点之间的weight权重值用来表示两个基因之间的关联性。首先，加载R包和数据，所用到的数据是WGCNA分析得到的输出网络文件，格式是Cytoscape的输入格式，本文的示例数据已上传，留言区回复。

2024-04-22 19:50:55 1700 2

原创 R语言ggplot2绘图学习笔记（基础知识大全）

只需要将color和shape等参数添加具体的值即可，需要注意的是这些参数不能放在aes中，因为aes控制映射关系，也就是数据和图的映射，而我们想更改颜色和形状是人为参数指定的具体值，而不是数据映射而得。：在R语言中字符串类型的数据在映射时容易出现顺序错误，为了能够人为设置固定的顺序，可以将数据中字符串类型的变量转换为因子类型（factor），然后设置因子的水平，这样就可以在绘图时以指定顺序展示了。再次运行就能看到散点图的效果，这就是gemo图层实现的效果，除此之外，可以组合几个图层，形成更复杂的图片。

2024-04-11 11:10:35 1464

原创 Python和R语言for循环新手入门必学教程

在数据分析或者日常工作中，经常遇到需要循环处理的情况，此时可以使用编程语言中的for循环来实现简单的操作，今天的笔记分享关于Python和R语言中常用的for循环方法和使用技巧。在循环中定义的变量会在循环外部保留（除非在函数中定义的循环）。对于较大的数据集和复杂的计算，可以使用并行处理来加速循环，R包如parallel和foreach提供了这样的功能。在开始循环之前，为将要存储的数据预分配足够的内存空间，动态增长数据结构（如列表或向量）可能会显著降低循环的效率。对数据的更复杂处理，例如处理多维数组或列表。

2024-04-08 15:39:29 855

原创 Patchwork包使用教程，R语言快速组合拼接图片

今天分享的笔记带你领略R语言Patchwork包独特的魅力，patchwork是一个非常流行的用于拼接 ggplot2 图形的包，以一种简单的方式对图形进行排列和组合，不论多复杂的组合图形，都能确保图形之间正确对齐，它提供一种类似四则运算的方法来拼接图形，非常易于使用。使用方法其实挺简单的，支持用括号来定义优先级，然后用上述符号即可将多张图拼接到一起。将第一个图和第二个图横向拼接。将第一个图和第二个图垂直拼接。

2024-03-27 09:52:19 3277

原创使用真菌手段防治小麦根腐病

该研究的创新之处在于成功地将一个生物防治剂应用于实际农田条件下，针对小麦作物中的病害复合体展开有效的抑制，这不仅为生物防治技术的实际应用提供了一个有力的案例，也为小麦的可持续管理提供了新的策略。T. gamsii A5MH通过提高作物的出苗率和分蘖生物量来增强作物的早期生长表现，同时减少了病原体在作物根系中的丰度，从而有潜力作为一种生物防治手段，整合进小麦的病害管理策略中。此外，该研究还探索了T. gamsii A5MH的持久性和在作物残茬中的存活能力，为未来的田间管理提供了有价值的信息。

2024-03-27 09:12:02 1040

原创机器学习预测气候变化对产量的影响

用RF模型生成PDP，以证明环境因素与作物产量之间的非线性关系，对6个环境因子的相对重要性进行归一化处理，结果表明，玉米的主要影响因子为CD(33.5%)和CPD(23.4%)，大豆的主要影响因子为CPD(22.6%)和TD(19.5%)。综上所述，作者团队成功开发了混合模型(GGCM+RF)，通过考虑ECEs和CPD，将机器学习与作物模型相结合，从而提高了玉米和大豆产量预测的准确性，同时降低了整体的不确定性。3、在未来气候情景下，比较GGCM单独的产量预测与混合模型的产量预测。通过机器学习预测作物产量。

2024-03-27 09:10:53 1682

原创新手必学的Markdown教程

不管你是什么电脑、平板、手机，不管你什么Linux、windows、mac都能兼容，甚至直接用txt记事本也能打开，不像word那么复杂。就像你在做实验、写文章、分析数据、学习或工作中，可能偶尔需要回溯之前的操作，有时候记性不好容易忘，如果做好关键记录，那么以后回看时会大大提高效率。Markdown 是一种轻量级的标记语言，它允许人们使用易读易写的纯文本格式编写文档，然后转换成有效的 XHTML（或者 HTML）文档。因为它真的很有用，能够让你更方便的记笔记，帮助你整理你的思路和想法。

2024-03-23 15:15:31 944

原创 R语言绘制散点密度图ggdentity

这个包结合了散点图和密度图的特点，是 ggplot2 的一个扩展，使用户能够创建点密度图，其中点的颜色和大小可以表示数据点在特定区域的局部密度，从而直观地揭示出数据的集中趋势。今天分享的笔记是在R语言中绘制该图的两种常见方法，提供过程代码。论文中常见的这种展示两组数据之间分布趋势的图，其实也是一种散点图，只是用不同颜色来映射了点的密度大小，通常是渐变色来展示数据的变化规律。

2024-03-12 11:13:30 3155

原创 R语言快速读取数据vroom

使用vroom包的vroom函数来读取一个名为"mtcars.tsv"的TSV文件（制表符分隔的值）。按照指定的列类型读取TSV文件，忽略不需要的列，确保数据以正确的格式被导入R环境中。今天分享的一个R小技巧是读取大文件的最佳方式，尤其是GB以上的文件，比如常见的csv、tsv、txt等类型的文件。R语言中，如果用vroom读取一个GB级别的大文件，也能体会到这种速度感。vroom有自动识别文件格式功能，所以不管是csv，还是tsv文件都只需要同一个读取指令vroom(”xxx.csv”)就可以。

2024-03-11 22:20:08 1567

原创最新版samtools安装与使用方法

本文介绍Linux系统下通过编译安装samtools的操作方法，同时对samtools的功能和使用技巧进行介绍，Samtools是生物信息学中广泛使用的一款软件，主要用于处理基于高通量测序数据。sort命令也很强大，可以对bam文件中的序列进行排序，默认下是按序列在fasta文件中的顺序（即header）和序列从左往右的位点排序。首先，在官网下载最新版的安装包，以下是官网地址，如果你无法访问Github，可以在下面提供第一条链接进行下载（速度更快）。配置环境变量，这样下次就能直接调用了。

2024-03-11 21:39:28 10824 3

原创 fasta文件与fastq文件相互转化Python脚本

使用的方法也很简单，把这个脚本保存为xx.py，然后运行并添加三个参数，第一个是原始fasta文件名，第二个是输出文件名，第三个参数是数字，表示每条序列的最大长度，超过该长度的序列将会被切分成多条。刚刚这段Python脚本的功能是将fasta格式的序列文件转换为fastq格式的序列文件，并且可以对序列进行分割，使得每条序列的长度不超过指定的最大长度。对比一下可以看出，fa文件主要是两部分，大于号开头的是序列的ID，下一行是序列，相比于fq文件，少了质量信息。

2024-03-07 21:19:00 2336

原创 blast原理与使用技巧，最全最详细

BLAST首先将查询序列与数据库中的序列进行快速比对，找出潜在的匹配区域，然后通过更精确的算法计算这些区域的相似性得分，最后返回评分最高的匹配。BLAST是由美国国立卫生研究院（NIH）开发的一种用于比对核酸或蛋白质序列的工具,其基本原理是通过局部序列比对来发现两个序列之间的相似性。根据不同的需求，比如说你用的序列是氨基酸还是核苷酸，你要查找的数据是核甘酸还是氨基酸，选择合适的blast工具。E值表明在随机的情况下，其它序列与目标序列相似度要大于这条显示的序列的可能性。专门用于比对蛋白质序列。

2024-03-07 20:33:54 4290

原创 MetaQTL：元分析基础教程

Meta-QTL分析又叫做元QTL分析或者统合QTL分析，以参考图谱为基础对来自不同亲本的杂交组合，对不同性状以及不同环境的QTL结果进行整合，再通过统计学方法，鉴定出QTL的一致性和真实性，再获得的“通用的QTL”区间发掘出性状相关基因。收集和整理不同研究中关于QTL的数据，尽可能多的收集同一物种QTL定位的信息，包括QTL名称，所在连锁群的位置，邻近标记，作图群体，性状，LOD值，R2，置信区间等信息。随着科技的进步，我们期待着揭开更多未知的秘密，最终利用这些宝贵的知识，促进健康、农业和医学的发展。

2024-03-06 20:36:02 1379

原创 R语言中数据框是什么？

在数据分析过程中离不开表格，通常使用Excel来做数据分析，行和列用来存放不同的数据，表格能清晰直观的展示数据，而且可以将多张表组合联系起来，这种不约而同的规范也同样适用于R语言。以上就创建了一个基础的数据框结构，包含两列信息（使用col表示列），每列是一种指标（$变量可以用来索引列元素），每行是一个观测（一条记录信息，使用row来表示行）。对于非常大的数据集，标准的数据框可能效率不高。如果$后面跟的是一个已存在于数据框的列名，那么可以对数据框的值进行修改，例如以下操作能够将数据框的第一列重新赋值。

2024-01-22 12:22:13 1111

原创 Linux批量快速修改文件名的三种方法

在Linux中，批量重命名文件是一项常见且有用的操作。以下是三种常用的批量重命名文件的方法，每种方法都附有示例。这些方法既可以适用于新手，也适用于更有经验的用户。

2024-01-16 17:41:56 13435

原创什么是CNV？

CNV（拷贝数变异）是基因组遗传学中的一个术语，指的是在个体的DNA序列中与参考基因组相比存在的基因或DNA片段的拷贝数增加或减少。CNV、SNP都是基因组中的遗传变异形式，它们共同构成了个体基因组的多样性，这些变异可能对个体的性状产生影响。定义：指的是DNA片段的拷贝数在个体之间的变异，可以是增加或减少，这些片段可能包含一个或多个基因。定义：指的是基因组中较大片段的结构变化，包括拷贝数变异、插入、缺失、倒置、易位等。定义：指的是基因组中单个核苷酸（A、T、C或G）的变异，是最常见的遗传变异形式。

2024-01-15 17:39:07 2343

原创 R语言频率分布直方图绘制教程

这是最基础的直方图，没有展示分组信息，仅对所有的数据统计，可以看出在52和58处有峰值，说明分布频率很高，横轴上有一些条形码一样的黑色竖线，表示样品的分布情况，黑色线越密集，代表此处的值越多。先创建一个随机数据用于绘图，该数据表格的第一列是“type”样品分类信息，包含A、B、C三个种类，第二列是随机数字，一共包含600行，将其看做600个样品的某指标数据。不知道你有没有发现，这个图就是小提琴图的一半，因为这个密度曲线实际上反映了数据的分布，而小提琴图的宽窄也反应数据的分布，因此二者本质一样。

2024-01-05 09:18:12 7269

原创贝叶斯算法的故事丨机器学习一文解读

假设以创业为例，结果只有两种（成功或失败），按照频率论的方式，一个人创业成功的概率占50%（事件独立发生的概率），但是实际会有很多影响因素，例如他的想法、毅力、勇气等，如果雷军创业你会认为他成功的概率是80%，如果楼下地摊小哥创业，你认为他成功的概率不会特别高。杰克初步估计，根据历史记录和传说，宝藏在城堡的概率是50%，在岛屿的概率是20%，在洞穴是20%，而在沙漠则是10%。最终，经过一系列的探险和进一步的线索搜集，杰克在城堡找到了宝藏，这与他通过贝叶斯方法计算出的最高概率地点一致。

2023-12-28 14:24:50 1242 2

原创瓷片图绘制教程，R语言ggplot2绘图笔记

瓷片图像地板砖一样，由许多个小格子组成，不用的颜色深浅可以用来表示不同的值，横轴和纵轴可以用来展示不同的位置，二维码图、马赛克图、热图等都有异曲同工之妙。根据tile单词的翻译就能明白，这个函数的功能就是创建瓷片图，也就是色块，本质上是根据数据计算元素的位置和填充颜色，这也是一个非常基础的功能。增加一些主题美化代码，即可获得如下结果图，数据是随机生成的，没有实际含义，仅提供绘图思路和方法，请您根据实际需要进行修改。这种类型的图表非常适合展示二维数据的矩阵，其中每个瓷砖的颜色可以表示矩阵中对应元素的值。

2023-12-26 15:48:00 1591

原创 R语言ggplot2可视化：分组堆叠条形图，展示不同分组的多个处理数据特征，动态交互式条形图

图中横轴以“0”为界左右分为两部分，可以用来表示处理A和处理B，纵轴表示样品，每行条形图中不同颜色分别代表不同类型的指标。今天分享的内容是在R语言中绘制该图的方法，包括数据的整理准备过程，以及绘图所用的代码，所有数据均随机生成，无实际意义。以上是绘图所用到的一些R包，主要是使用R语言中ggplot绘图体系，动态交互使用plotly实现。先使用最基础的条形图进行绘制，已经能大概看到雏形了，主要是颜色的区别，接下来调整颜色。还有一个隐藏小细节，在上图中标注分组“A”和“B”，使用annotate功能添加。

2023-12-23 14:36:41 3957

原创 R语言中使用ggplot2绘制散点图箱线图，附加显著性检验

这段代码的作用是创建一个箱形图，显示不同物种（Species）的萼片宽度（Sepal.Width）分布，且不同物种的箱形用不同颜色表示，并且这些颜色半透明。对于两组以上的独立样品，如果数据同时满足正态性和方差齐性，可以采用方差分析（ANOVA）或者Kruskal检验，如果不满足可采用Kruskal检验。本篇笔记主要内容：介绍R语言中绘制箱线图和散点图的方法，以及二者结合展示教程，添加差异比较显著性分析，绘制如上结果图。这张图x轴是不同分类，每个分类下有A和B两组，y轴表示具体的值，每个分类上有P值标注。

2023-12-22 12:48:10 10469 1

原创 GWAS结果批量整理：升级版算法TidyGWAS

上述算法有个隐藏BUG，当SNP数量多的时候能够正常判断，但是当SNP数量只有几个的时候，有可能会出现某条染色体上最后一个显著的SNP恰好比下一条染色体的第一条SNP位置大，此时算法会将其认为是同一条染色体。这段代码的目的是将一个包含点号分隔字符串的列表（文件名称列表）分割成多个部分，转换为数据框，然后从每一列中提取出不重复的元素，分别存储在三个不同的列表中，这样就得到了所有待整理的信息清单。其中最后一个结果文件很重要，包含了所有的显著信息，并对多环境同时共定位到的位点进行标注，可以用于后续研究。

2023-11-24 10:41:00 1335 1

原创育种值探秘丨动植物遗传育种

在数量遗传学中把决定数量性状的基因加性效应值定义为育种值(BV)，个体育种值的估计值叫做估计育种值(EBV)。当我们在育种中选择父母个体时，育种值就是我们的指南针，指引我们朝着优化基因组的方向前进。别担心，我会用最幽默有趣的语言，辅以一些示例代码，让你快速了解育种值的定义、计算方法以及背后的算法原理，并给出Python和R两个版本的计算过程源码。通过选择具有较高育种值的个体作为父母，可以加速所需性状的进化，达到更好的遗传改良效果。在遗传育种的舞台上，育种值就像是一把魔法的秘钥，为我们解锁基因世界的奥秘。

2023-11-21 15:39:26 1159

原创转录组分析小故事丨什么是RNAseq？

这些小精灵是非常特别的，因为它们是由国度中的心脏——DNA大巨人——的信息创造出来的。这些小精灵很忙碌，它们负责把DNA大巨人的信息传递到国度的各个角落，告诉国度里的工厂（细胞器）要制造什么样的产品（蛋白质）。但是，国王（科学家）想要更好地理解他的国度，所以他决定使用一种魔法——RNA转录组测序——来听听这些小精灵在聊什么。我是您的导航员，今天将带您走进玉米的微观世界，一探真核生物有参转录组分析的秘密。想象一下，我们将穿梭于DNA与RNA的世界，用数据的眼睛揭示生命的奥秘，多么酷~

2023-11-17 18:00:45 340

原创 LDBlockshow报错，Can‘t locate SVG.pm

使用conda安装了LDBlockShow之后，在使用过程中出现以上报错，提示“Can't locate SVG.pm in @INC xxx /bin/ShowLDSVG line 24”，这个报错的原因是缺少Perl语言的SVG模块，本篇笔记提供一个方法，解决LDBlockShow安装和使用的过程中的问题。刚刚安装完成后，如果直接使用，有可能就会出现“Can't locate SVG.pm in @INC ”报错，需要使用cpan安装SVG模块。安装完成后，使用CPAN安装。

2023-11-10 15:30:10 939

原创随机森林在生物信息中的应用

让我们一起探索随机森林的原理、优缺点以及它在生物信息领域的实际应用场景，本文将给出R语言进行应用的实际方法，利用机器学习寻找影响表型的相关基因，仅作参考。每棵树都是通过随机选择数据的子集（自助采样）和特征的子集来构建的，这有助于增加模型的多样性。最后，你根据所有专家的建议来做出最终的决定。当涉及到基因表达分析和随机森林时，R语言是一个强大的工具，接下来演示如何使用随机森林来识别特定基因和表型之间的关联。生物信息学数据中的关系往往是复杂的，而随机森林可以有效地捕捉非线性关系，使其在生物信息学研究中非常有用。

2023-11-06 10:29:50 1390

转录组-limma差异表达分析-方法教程

R语言-GWAS全基因组关联分析结果整理算法-方法笔记

R语言-多线程并行计算原理与操作步骤-方法笔记

R语言绘图-箱线图绘制教程-自动进行显著性检验和误差线标注-方法笔记

rsync命令在Linux系统中实现高效文件同步-方法笔记

空空如也