生信分析笔记-CSDN博客

原创干货必学|用ggplot2让你的数据可视化作品脱颖而出

在ggplot2中使用geom_curve也可以用来绘制箭头，在绘制的过程中通过指定curvature和angle等参数来调整箭头线段的角度和位置，还可以自定义设置颜色的大小。ggplot2绘图可以使用丰富的色彩搭配，在绘图过程中使用color参数能够设置元素描边的颜色，fill参数能够设置填充的颜色，比如下面设置散点图的色彩。facet_grid函数中第一个参数用于指定分面的规则，比如这里使用的是年份~季节，在实际使用中需要根据数据进行调整，第二个参数用于设置子图的尺度变换。

2024-04-30 10:46:07 748

原创 R语言绘制动态网络图Network教程WGCNA

在此基础上，我们还可以添加一些额外的信息，比如按照不同的分组将节点赋予不同的颜色，或者根据根据基因之间的正调控和负调控设置连接线的颜色。除了设置节点与节点之间边的关系，还能设置单个节点的参数，比如通过下面的代码设置节点的大小用来表示基因的表达量，表达量高的基因节点直径越大。这里每个节点可以表示一个基因，节点之间的weight权重值用来表示两个基因之间的关联性。首先，加载R包和数据，所用到的数据是WGCNA分析得到的输出网络文件，格式是Cytoscape的输入格式，本文的示例数据已上传，留言区回复。

2024-04-22 19:50:55 487

原创 R语言ggplot2绘图学习笔记（基础知识大全）

只需要将color和shape等参数添加具体的值即可，需要注意的是这些参数不能放在aes中，因为aes控制映射关系，也就是数据和图的映射，而我们想更改颜色和形状是人为参数指定的具体值，而不是数据映射而得。：在R语言中字符串类型的数据在映射时容易出现顺序错误，为了能够人为设置固定的顺序，可以将数据中字符串类型的变量转换为因子类型（factor），然后设置因子的水平，这样就可以在绘图时以指定顺序展示了。再次运行就能看到散点图的效果，这就是gemo图层实现的效果，除此之外，可以组合几个图层，形成更复杂的图片。

2024-04-11 11:10:35 932

原创 Python和R语言for循环新手入门必学教程

在数据分析或者日常工作中，经常遇到需要循环处理的情况，此时可以使用编程语言中的for循环来实现简单的操作，今天的笔记分享关于Python和R语言中常用的for循环方法和使用技巧。在循环中定义的变量会在循环外部保留（除非在函数中定义的循环）。对于较大的数据集和复杂的计算，可以使用并行处理来加速循环，R包如parallel和foreach提供了这样的功能。在开始循环之前，为将要存储的数据预分配足够的内存空间，动态增长数据结构（如列表或向量）可能会显著降低循环的效率。对数据的更复杂处理，例如处理多维数组或列表。

2024-04-08 15:39:29 679

原创 Patchwork包使用教程，R语言快速组合拼接图片

今天分享的笔记带你领略R语言Patchwork包独特的魅力，patchwork是一个非常流行的用于拼接 ggplot2 图形的包，以一种简单的方式对图形进行排列和组合，不论多复杂的组合图形，都能确保图形之间正确对齐，它提供一种类似四则运算的方法来拼接图形，非常易于使用。使用方法其实挺简单的，支持用括号来定义优先级，然后用上述符号即可将多张图拼接到一起。将第一个图和第二个图横向拼接。将第一个图和第二个图垂直拼接。

2024-03-27 09:52:19 898

原创使用真菌手段防治小麦根腐病

该研究的创新之处在于成功地将一个生物防治剂应用于实际农田条件下，针对小麦作物中的病害复合体展开有效的抑制，这不仅为生物防治技术的实际应用提供了一个有力的案例，也为小麦的可持续管理提供了新的策略。T. gamsii A5MH通过提高作物的出苗率和分蘖生物量来增强作物的早期生长表现，同时减少了病原体在作物根系中的丰度，从而有潜力作为一种生物防治手段，整合进小麦的病害管理策略中。此外，该研究还探索了T. gamsii A5MH的持久性和在作物残茬中的存活能力，为未来的田间管理提供了有价值的信息。

2024-03-27 09:12:02 922

原创机器学习预测气候变化对产量的影响

用RF模型生成PDP，以证明环境因素与作物产量之间的非线性关系，对6个环境因子的相对重要性进行归一化处理，结果表明，玉米的主要影响因子为CD(33.5%)和CPD(23.4%)，大豆的主要影响因子为CPD(22.6%)和TD(19.5%)。综上所述，作者团队成功开发了混合模型(GGCM+RF)，通过考虑ECEs和CPD，将机器学习与作物模型相结合，从而提高了玉米和大豆产量预测的准确性，同时降低了整体的不确定性。3、在未来气候情景下，比较GGCM单独的产量预测与混合模型的产量预测。通过机器学习预测作物产量。

2024-03-27 09:10:53 1026

原创新手必学的Markdown教程

不管你是什么电脑、平板、手机，不管你什么Linux、windows、mac都能兼容，甚至直接用txt记事本也能打开，不像word那么复杂。就像你在做实验、写文章、分析数据、学习或工作中，可能偶尔需要回溯之前的操作，有时候记性不好容易忘，如果做好关键记录，那么以后回看时会大大提高效率。Markdown 是一种轻量级的标记语言，它允许人们使用易读易写的纯文本格式编写文档，然后转换成有效的 XHTML（或者 HTML）文档。因为它真的很有用，能够让你更方便的记笔记，帮助你整理你的思路和想法。

2024-03-23 15:15:31 817

原创 R语言绘制散点密度图ggdentity

这个包结合了散点图和密度图的特点，是 ggplot2 的一个扩展，使用户能够创建点密度图，其中点的颜色和大小可以表示数据点在特定区域的局部密度，从而直观地揭示出数据的集中趋势。今天分享的笔记是在R语言中绘制该图的两种常见方法，提供过程代码。论文中常见的这种展示两组数据之间分布趋势的图，其实也是一种散点图，只是用不同颜色来映射了点的密度大小，通常是渐变色来展示数据的变化规律。

2024-03-12 11:13:30 1049

原创 R语言快速读取数据vroom

使用vroom包的vroom函数来读取一个名为"mtcars.tsv"的TSV文件（制表符分隔的值）。按照指定的列类型读取TSV文件，忽略不需要的列，确保数据以正确的格式被导入R环境中。今天分享的一个R小技巧是读取大文件的最佳方式，尤其是GB以上的文件，比如常见的csv、tsv、txt等类型的文件。R语言中，如果用vroom读取一个GB级别的大文件，也能体会到这种速度感。vroom有自动识别文件格式功能，所以不管是csv，还是tsv文件都只需要同一个读取指令vroom(”xxx.csv”)就可以。

2024-03-11 22:20:08 648

原创最新版samtools安装与使用方法

本文介绍Linux系统下通过编译安装samtools的操作方法，同时对samtools的功能和使用技巧进行介绍，Samtools是生物信息学中广泛使用的一款软件，主要用于处理基于高通量测序数据。sort命令也很强大，可以对bam文件中的序列进行排序，默认下是按序列在fasta文件中的顺序（即header）和序列从左往右的位点排序。首先，在官网下载最新版的安装包，以下是官网地址，如果你无法访问Github，可以在下面提供第一条链接进行下载（速度更快）。配置环境变量，这样下次就能直接调用了。

2024-03-11 21:39:28 2083 1

原创 fasta文件与fastq文件相互转化Python脚本

使用的方法也很简单，把这个脚本保存为xx.py，然后运行并添加三个参数，第一个是原始fasta文件名，第二个是输出文件名，第三个参数是数字，表示每条序列的最大长度，超过该长度的序列将会被切分成多条。刚刚这段Python脚本的功能是将fasta格式的序列文件转换为fastq格式的序列文件，并且可以对序列进行分割，使得每条序列的长度不超过指定的最大长度。对比一下可以看出，fa文件主要是两部分，大于号开头的是序列的ID，下一行是序列，相比于fq文件，少了质量信息。

2024-03-07 21:19:00 971

原创 blast原理与使用技巧，最全最详细

BLAST首先将查询序列与数据库中的序列进行快速比对，找出潜在的匹配区域，然后通过更精确的算法计算这些区域的相似性得分，最后返回评分最高的匹配。BLAST是由美国国立卫生研究院（NIH）开发的一种用于比对核酸或蛋白质序列的工具,其基本原理是通过局部序列比对来发现两个序列之间的相似性。根据不同的需求，比如说你用的序列是氨基酸还是核苷酸，你要查找的数据是核甘酸还是氨基酸，选择合适的blast工具。E值表明在随机的情况下，其它序列与目标序列相似度要大于这条显示的序列的可能性。专门用于比对蛋白质序列。

2024-03-07 20:33:54 1080

原创 MetaQTL：元分析基础教程

Meta-QTL分析又叫做元QTL分析或者统合QTL分析，以参考图谱为基础对来自不同亲本的杂交组合，对不同性状以及不同环境的QTL结果进行整合，再通过统计学方法，鉴定出QTL的一致性和真实性，再获得的“通用的QTL”区间发掘出性状相关基因。收集和整理不同研究中关于QTL的数据，尽可能多的收集同一物种QTL定位的信息，包括QTL名称，所在连锁群的位置，邻近标记，作图群体，性状，LOD值，R2，置信区间等信息。随着科技的进步，我们期待着揭开更多未知的秘密，最终利用这些宝贵的知识，促进健康、农业和医学的发展。

2024-03-06 20:36:02 666

原创 R语言中数据框是什么？

在数据分析过程中离不开表格，通常使用Excel来做数据分析，行和列用来存放不同的数据，表格能清晰直观的展示数据，而且可以将多张表组合联系起来，这种不约而同的规范也同样适用于R语言。以上就创建了一个基础的数据框结构，包含两列信息（使用col表示列），每列是一种指标（$变量可以用来索引列元素），每行是一个观测（一条记录信息，使用row来表示行）。对于非常大的数据集，标准的数据框可能效率不高。如果$后面跟的是一个已存在于数据框的列名，那么可以对数据框的值进行修改，例如以下操作能够将数据框的第一列重新赋值。

2024-01-22 12:22:13 669

原创 Linux批量快速修改文件名的三种方法

在Linux中，批量重命名文件是一项常见且有用的操作。以下是三种常用的批量重命名文件的方法，每种方法都附有示例。这些方法既可以适用于新手，也适用于更有经验的用户。

2024-01-16 17:41:56 2929

原创什么是CNV？

CNV（拷贝数变异）是基因组遗传学中的一个术语，指的是在个体的DNA序列中与参考基因组相比存在的基因或DNA片段的拷贝数增加或减少。CNV、SNP都是基因组中的遗传变异形式，它们共同构成了个体基因组的多样性，这些变异可能对个体的性状产生影响。定义：指的是DNA片段的拷贝数在个体之间的变异，可以是增加或减少，这些片段可能包含一个或多个基因。定义：指的是基因组中较大片段的结构变化，包括拷贝数变异、插入、缺失、倒置、易位等。定义：指的是基因组中单个核苷酸（A、T、C或G）的变异，是最常见的遗传变异形式。

2024-01-15 17:39:07 1275

原创 R语言频率分布直方图绘制教程

这是最基础的直方图，没有展示分组信息，仅对所有的数据统计，可以看出在52和58处有峰值，说明分布频率很高，横轴上有一些条形码一样的黑色竖线，表示样品的分布情况，黑色线越密集，代表此处的值越多。先创建一个随机数据用于绘图，该数据表格的第一列是“type”样品分类信息，包含A、B、C三个种类，第二列是随机数字，一共包含600行，将其看做600个样品的某指标数据。不知道你有没有发现，这个图就是小提琴图的一半，因为这个密度曲线实际上反映了数据的分布，而小提琴图的宽窄也反应数据的分布，因此二者本质一样。

2024-01-05 09:18:12 2890

原创贝叶斯算法的故事丨机器学习一文解读

假设以创业为例，结果只有两种（成功或失败），按照频率论的方式，一个人创业成功的概率占50%（事件独立发生的概率），但是实际会有很多影响因素，例如他的想法、毅力、勇气等，如果雷军创业你会认为他成功的概率是80%，如果楼下地摊小哥创业，你认为他成功的概率不会特别高。杰克初步估计，根据历史记录和传说，宝藏在城堡的概率是50%，在岛屿的概率是20%，在洞穴是20%，而在沙漠则是10%。最终，经过一系列的探险和进一步的线索搜集，杰克在城堡找到了宝藏，这与他通过贝叶斯方法计算出的最高概率地点一致。

2023-12-28 14:24:50 1016 1

原创瓷片图绘制教程，R语言ggplot2绘图笔记

瓷片图像地板砖一样，由许多个小格子组成，不用的颜色深浅可以用来表示不同的值，横轴和纵轴可以用来展示不同的位置，二维码图、马赛克图、热图等都有异曲同工之妙。根据tile单词的翻译就能明白，这个函数的功能就是创建瓷片图，也就是色块，本质上是根据数据计算元素的位置和填充颜色，这也是一个非常基础的功能。增加一些主题美化代码，即可获得如下结果图，数据是随机生成的，没有实际含义，仅提供绘图思路和方法，请您根据实际需要进行修改。这种类型的图表非常适合展示二维数据的矩阵，其中每个瓷砖的颜色可以表示矩阵中对应元素的值。

2023-12-26 15:48:00 1091

原创 R语言ggplot2可视化：分组堆叠条形图，展示不同分组的多个处理数据特征，动态交互式条形图

图中横轴以“0”为界左右分为两部分，可以用来表示处理A和处理B，纵轴表示样品，每行条形图中不同颜色分别代表不同类型的指标。今天分享的内容是在R语言中绘制该图的方法，包括数据的整理准备过程，以及绘图所用的代码，所有数据均随机生成，无实际意义。以上是绘图所用到的一些R包，主要是使用R语言中ggplot绘图体系，动态交互使用plotly实现。先使用最基础的条形图进行绘制，已经能大概看到雏形了，主要是颜色的区别，接下来调整颜色。还有一个隐藏小细节，在上图中标注分组“A”和“B”，使用annotate功能添加。

2023-12-23 14:36:41 2134

原创 R语言中使用ggplot2绘制散点图箱线图，附加显著性检验

这段代码的作用是创建一个箱形图，显示不同物种（Species）的萼片宽度（Sepal.Width）分布，且不同物种的箱形用不同颜色表示，并且这些颜色半透明。对于两组以上的独立样品，如果数据同时满足正态性和方差齐性，可以采用方差分析（ANOVA）或者Kruskal检验，如果不满足可采用Kruskal检验。本篇笔记主要内容：介绍R语言中绘制箱线图和散点图的方法，以及二者结合展示教程，添加差异比较显著性分析，绘制如上结果图。这张图x轴是不同分类，每个分类下有A和B两组，y轴表示具体的值，每个分类上有P值标注。

2023-12-22 12:48:10 5452 1

原创 GWAS结果批量整理：升级版算法TidyGWAS

上述算法有个隐藏BUG，当SNP数量多的时候能够正常判断，但是当SNP数量只有几个的时候，有可能会出现某条染色体上最后一个显著的SNP恰好比下一条染色体的第一条SNP位置大，此时算法会将其认为是同一条染色体。这段代码的目的是将一个包含点号分隔字符串的列表（文件名称列表）分割成多个部分，转换为数据框，然后从每一列中提取出不重复的元素，分别存储在三个不同的列表中，这样就得到了所有待整理的信息清单。其中最后一个结果文件很重要，包含了所有的显著信息，并对多环境同时共定位到的位点进行标注，可以用于后续研究。

2023-11-24 10:41:00 1017 1

原创育种值探秘丨动植物遗传育种

在数量遗传学中把决定数量性状的基因加性效应值定义为育种值(BV)，个体育种值的估计值叫做估计育种值(EBV)。当我们在育种中选择父母个体时，育种值就是我们的指南针，指引我们朝着优化基因组的方向前进。别担心，我会用最幽默有趣的语言，辅以一些示例代码，让你快速了解育种值的定义、计算方法以及背后的算法原理，并给出Python和R两个版本的计算过程源码。通过选择具有较高育种值的个体作为父母，可以加速所需性状的进化，达到更好的遗传改良效果。在遗传育种的舞台上，育种值就像是一把魔法的秘钥，为我们解锁基因世界的奥秘。

2023-11-21 15:39:26 338

原创转录组分析小故事丨什么是RNAseq？

这些小精灵是非常特别的，因为它们是由国度中的心脏——DNA大巨人——的信息创造出来的。这些小精灵很忙碌，它们负责把DNA大巨人的信息传递到国度的各个角落，告诉国度里的工厂（细胞器）要制造什么样的产品（蛋白质）。但是，国王（科学家）想要更好地理解他的国度，所以他决定使用一种魔法——RNA转录组测序——来听听这些小精灵在聊什么。我是您的导航员，今天将带您走进玉米的微观世界，一探真核生物有参转录组分析的秘密。想象一下，我们将穿梭于DNA与RNA的世界，用数据的眼睛揭示生命的奥秘，多么酷~

2023-11-17 18:00:45 225

原创 LDBlockshow报错，Can‘t locate SVG.pm

使用conda安装了LDBlockShow之后，在使用过程中出现以上报错，提示“Can't locate SVG.pm in @INC xxx /bin/ShowLDSVG line 24”，这个报错的原因是缺少Perl语言的SVG模块，本篇笔记提供一个方法，解决LDBlockShow安装和使用的过程中的问题。刚刚安装完成后，如果直接使用，有可能就会出现“Can't locate SVG.pm in @INC ”报错，需要使用cpan安装SVG模块。安装完成后，使用CPAN安装。

2023-11-10 15:30:10 317

原创随机森林在生物信息中的应用

让我们一起探索随机森林的原理、优缺点以及它在生物信息领域的实际应用场景，本文将给出R语言进行应用的实际方法，利用机器学习寻找影响表型的相关基因，仅作参考。每棵树都是通过随机选择数据的子集（自助采样）和特征的子集来构建的，这有助于增加模型的多样性。最后，你根据所有专家的建议来做出最终的决定。当涉及到基因表达分析和随机森林时，R语言是一个强大的工具，接下来演示如何使用随机森林来识别特定基因和表型之间的关联。生物信息学数据中的关系往往是复杂的，而随机森林可以有效地捕捉非线性关系，使其在生物信息学研究中非常有用。

2023-11-06 10:29:50 520

原创 linux基础操作必会技能

接下来的每步操作后，都可以跑一遍 pwd, ls 和 tree，加深对路径和命令的理解，这个有点像windows系统下的资源管理器。特别注意: 在Linux中空格有着专门的意义，所以要特别关注命令行中的空格符，不可以省略空格，否则命令会无法正确执行。输出文件的前 6 行，通过管道转发给 tail 取出后 3 行，也就是原始文件的 4-6 行。755 表示文件所有者对文件具有可读、可写、可执行权限，其他用户只具有可读、可执行权限。查看文件对应的权限信息，对比操作前后文件权限的变化。

2023-10-27 08:46:15 88

原创 R语言中fread怎么使用？

在R语言中，fread函数是data.table包中的一个功能强大的数据读取函数，可以用于快速读取大型数据文件，它比基本的read.table和read.csv函数更快，尤其在处理大型数据集时效果更为明显。以上就是最常用的使用方法，特别适合大文件读取，亲测100MB的文件读取时一秒左右就完成了，可以用来替换原来的read.table和read.csv函数。fread函数的作用是将不同类型的输入数据高效地读取到R数据表中，它具有多个选项和配置，使用户能够无缝处理各种文件格式和数据结构。

2023-10-20 22:57:01 7017

原创重测序基因组：Pi核酸多样性计算

以下R语言代码的目的是创建一个包含数据框（data frame）的列表，并将一些数据加载到这些数据框中，最后将它们合并成一个大的数据框，用于ggplot绘图。使用system函数执行生成的shell_cmd命令，这将在系统上运行相应的vcftools命令，执行一些与VCF文件处理相关的任务，如计算窗口内的π值。总之，这段代码的作用是循环遍历group_list中的元素，每次循环生成一个用于运行vcftools命令的字符串shell_cmd，然后执行该命令。VCF、QTL、SNP根据实际情况进行修改。

2023-10-20 17:37:44 1308

原创 Linux系统中如何安装生信软件?保姆式全攻略

上述小故事中，厨房、客厅和厕所就像是不同的conda环境，马桶、煤气灶、油烟机和电视就像是软件工具，有时候必须把多个软件安装在同一个环境来使用（比如油烟机和煤气灶都在厨房），但是有时候又必须将不同软件安装在不同环境（比如马桶和煤气灶就没法放在一起）。过了一段时间，想上厕所了，需要急切的安装一个马桶，情急之下忘了新建环境，直接把马桶安在厨房，那就有意思了，启动时冲突，无法边做饭边上厕所。安装软件时先考虑通过conda进行安装，可以先搜一下有没有现成的yml配置文件，抄别人的作业，提高效率。

2023-10-17 23:32:10 560

原创 R语言进度条：txtProgressBar功能使用方法

在这些情况下，展示一个进度条可以帮助我们了解当前任务的进度，以及大约还需要多长时间来完成，R语言提供了几种简单且灵活的方法来实现这一目标。在R中使用进度条不仅可以提供友好的反馈，而且在长时间的任务中可以提供对任务进度的实时估计，希望这篇文章能帮助你在R中有效地使用进度条！R的utils包内建了一个txtProgressBar()函数，它可以创建一个简单的文本进度条，这是一种比较便捷的方法。在启动进度条的时候，可以同时记录开始时间，然后在每个迭代中，你可以计算已过去的时间，以及基于当前速度预估的剩余时间。

2023-10-17 21:24:53 832

原创 R语言提交后台任务Rstudio\nohup

在使用Rstudio过程中，如果已经写好了一个脚本，但是运行该脚本需要很长的时间，那么最好的方式就是提交到后台运行，点击Rstudio左下角的Background jobs按钮，可以看到新的窗口。在进行大规模数据分析时，R语言提供了后台计算的功能，能将计算任务提交到后台执行，不影响当前窗口的活动，而且不会受到网络波动导致任务中断，提交后就不用盯着一直看，后台运行就可以下班。通过后台计算可以在计算任务运行的同时，继续进行其他操作，提高了效率，希望本文对你理解和使用R语言后台计算有所帮助。

2023-10-07 14:28:43 1624

原创群体遗传学必备知识锦囊

可以这样理解中性理论：一群人抽奖，在没有内幕的情况下，每个人抽到一等奖的概率是相等的，这个可能性和参与抽奖的人的身高、年龄、爱好等因素都没有关系。测序价格大幅度降低，根据 NIH 公布的数据来看，近几年来测序技术普及，二代高通量测序已经成了遗传研究的必备手段，已经完全具备技术条件，可以实现对群体资源的基因解析。的大小主要取决于遗传漂变和迁移等因素的影响。就好比我有100株水稻，其中一株在成长过程中突然不见了，那么对我的这个小的水稻群体来说，这个消失的水稻的独有的位点在群体中就不见了，整体的多态性就降低了。

2023-09-18 20:11:23 469

原创 R语言绘制染色体变异位置分布图，RIdeogram包

先从名为 "Ref_chromedata.txt" 的文件中读取数据，并将其存储在名为 df_chr_pos_cent 的数据框中，再选取某些列的内容，并将它们拼接成一个新的矩阵，自动计算每条染色体的起止位置和着丝粒的起止位置。这段代码的功能是对名为df_marker的数据框进行处理，首先选择其中的特定列（第1、7、8、9列），然后将这些列的数据类型转换为整数类型，接着从中删除chr列值不等于"Un"的行，最后重命名这些列为。如果两个字符不相等，函数将返回"diff"，表示不相等。

2023-09-17 14:21:07 2372

原创 R语言并行计算提高速度丨parallel包和foreach包

处理循环中出现错误时的应对方法，默认为stop，即出现错误就停止，但是这样会导致已经计算的内容全部失效，还得重新算。另外还有两种方式，remove选项可以在遇到错误时自动移除错误项，pass可以在出现错误时跳过该项，后者的区别是会记录出现错误的位置。今天与大家分享的是R语言中的并行计算的内容，将探讨如何使用parallel和foreach包在R中进行并行计算，以及在不同情况下提高计算效率的方法。在R中尽量避免使用for循环，在R中使用for循环速度很慢，在写代码的时候，应该尽可能的避免使用for循环。

2023-09-12 18:17:38 2547

原创 R语言发送邮件丨blastula包使用教程

系统会弹出一个输入密码的窗口，如果是首次使用，可能最开始会出现一个设置主密码（有点像锁屏密码），然后会出现下面的界面，需要输入STMP服务器密码，将之前那一长串乱七八糟的字符粘贴到此处即可。使用R语言自动发送邮件，在关键节点及时提醒计算状态，能尽可能的避免浪费时间和无效等待，再也不用加班看结果了，系统自动将运算得到的结果汇报至邮箱（文字、表格、图片等文件都支持）。首先，需要安装Rstudio（windows和linux版都支持），然后安装下面的R包，这步骤没有报错说明环境部署完成。

2023-09-11 22:32:51 2537

原创 XP-CLR分析学习笔记

下图是近日发表在The Plant Cell上的一篇文章中关于XP-CLR分析的结果，展示了中美两国小麦育种靶标的异同，发现约15%的基因组区域受到了选择，在这些受选择的区域中包含诸多控制株型、产量、品质和抗病等的已知基因。XP-CLR是一个统计方法，用于比较两个或更多的种群以识别自然选择的迹象，自然选择是进化的主要动力，能够改变种群内基因的频率分布。本文将介绍XP-CLR分析的基本概念，原理，方法，以及其在生物信息学与遗传学中的应用，给给出XP-CLR分析的具体操作步骤教程。

2023-09-01 10:09:19 2282

原创 Rstudio开不开了怎么办？R is taking longer to start than usual

可能是由于上一次关闭服务器时，环境中还有很多变量没有保存也没有清除，直接通过关闭浏览器的方式退出，这样做会导致系统自动将环境内的数据写入到当前用户家目录下session文件夹保存。但是当某次用户读入了非常多的数据，环境变量占用的内存很高，此时这个读写和载入过程会变得很漫长，而且有可能卡死，这就造成了文章开头那种情况。当用户下一次登录时，系统会自动读取session中的文件，并加载到环境中，正常来说这个功能非常好，能保证工作状态记忆同步。另外，养成良好的编程习惯，对垃圾内存进行回收，避免长期占用。

2023-08-31 19:29:09 2250

原创 GATK4重测序数据怎么分析？上游分析标准流程

比对的结果将以 SAM 格式保存在指定路径下的文件中，同时使用 23 个线程来加速比对过程，元数据标签描述了测序数据的一些信息，如样本名称、测序平台等。重测序技术的应用广泛，包括基因组测序、转录组测序、外显子测序等，为生物学研究、医学诊断和个体化治疗等领域提供了重要的工具和数据基础。首先建立一个项目文件夹，将原始的测序数据放在数据目录下，通常采用二代高通量测序，每个样品下机数据为两个fq文件，成对存在，以下代码流程需要根据自己的实际需要进行修改，此处只作为示例，部分方法借鉴了网上公开信息和软件手册。

2023-08-28 23:16:59 780

R语言绘图-箱线图绘制教程-自动进行显著性检验和误差线标注-方法笔记

R语言-多线程并行计算原理与操作步骤-方法笔记

R语言-GWAS全基因组关联分析结果整理算法-方法笔记

rsync命令在Linux系统中实现高效文件同步-方法笔记

转录组-limma差异表达分析-方法教程

空空如也