ShengXinF3-CSDN博客

原创 R语言基础 - 饼图piechart

用 ggplot2 绘制饼图的优势在于我们可以更精细的控制图形的细节，例如特定主题，图例标题的位置等，但由于 ggplot2 并没有原生的饼图函数，所以我们无法很方便的像 baseR 绘图那样为饼图的每个区域添加指定的文本标签。这里因为我们的类别太多，如果都展示的话会显得很拥挤，所以这里给一个空的字符串。这个参数用于控制标签的字体大小，其中****参数的长度相匹配。: 这个参数接受一个数值向量，表示每个饼图片段的大小。: 饼图的半径，可以用来控制饼图的大小。**表示使用默认的半径大小。**的值会放大字体。

2024-03-18 20:59:15 1546

原创 Singularity 容器技术从入门到掌握

谈起容器技术，大家第一时间想到的肯定是最流行的功能强大的 docker。Singularity 容器技术 | 从入门到掌握。部分软件安装依赖多，过程复杂，难度大；没有 root 权限；生信软件的版本控制；

2024-03-12 22:29:40 808

原创 Singularity（九）| 配置深度学习容器

例如，nvcc 是 CUDA 的编译器，用于将 CUDA C/C++ 代码编译为可在 GPU 上执行的二进制代码。R 的 TensorFlow 包会扫描系统中各种版本的 Python，还会扫描可用的虚拟环境和 conda 环境，所以在很多情况下，不需要我们进行额外的操作。要控制在 SingularityCE 容器中使用的 GPU，可以在运行容器之前设置 SINGULARITYENV_CUDA_VISIBLE_DEVICES，或者在容器内设置 CUDA_VISIBLE_DEVICES。

2024-03-12 21:58:12 2011

原创 Singularity（八）| conda实战

例如我们在 base conda 环境下安装某个应用，其软件依赖的可执行程序一般会被放置在 /opt/conda/bin 目录下，在 activate conda 环境后，/opt/conda/bin 目录就会被添加到环境变量中。例如我们在 base conda 环境下安装某个应用，其软件依赖的可执行程序一般会被放置在 /opt/conda/bin 目录下，在 activate conda 环境后，/opt/conda/bin 目录就会被添加到环境变量中。然而，在我们需要搭配 HPC 使用时非常困难。

2024-03-12 21:51:54 1583

原创 Singularity（五）| 容器挂载和环境

然而，在日常使用场景中，已安装至容器中的应用程序的输入和输出文件往往存储在主机文件系统中，因此，我们需要从容器内读取和写入主机系统上的文件。这意味着容器内的进程和宿主机系统的进程是完全隔离的，容器内的PID命名空间与宿主机的PID命名空间分离。：通过隔离环境变量，可以防止容器内的应用程序访问或修改宿主机上的环境变量，这有助于保护敏感信息并确保容器内应用的运行环境独立于宿主机环境。前面我们在容器简介中提到，开发容器的目的之一主要是为了解决依赖库的安装、软件环境的隔离以及软件环境的移植问题。

2024-03-12 21:43:16 4035

原创 Singularity（四）| 自定义容器

除了从 Docker Hub 等官方容器存储库的基本镜像（如 Ubuntu、Debian、CentOS、Arch 和 BusyBox）开始构建容器之外，我们还可以使用主机系统上的现有容器作为基础容器。def 文件中各节的顺序并不重要，在构建过程中可以包含多个同名的节，并将它们相互追加。参考上述基于 def 文件的容器构建方法，我们可将这一容器构建为 sandbox，在此基础上进入容器后安装我们所需的各类软件。前面我们提到，sif 格式为只读的压缩文件，因此如果我们现有为 sif 格式容器，我们需要。

2024-03-12 21:41:30 2033

原创 Singularity（三）| 将docker转化为singularity容器

如果准备使用的 Docker 镜像已经上传到 Docker Hub (https://hub.docker.com/) 或 Quay (https://quay.io/) 等 Docker 托管存储库中，我们可以直接下载并将其转化为 Docker 容器。然而，在测试和调试期间，我们一般会需要一个可改写的沙箱（sandbox）格式（实际上就是一个目录）。对于想移植到其它主机上的 Docker 镜像，例如，biobakery/lefse，镜像ID为 c6ab05d10f7f，使用。

2024-03-12 21:37:04 2303

原创 Singularity（二）| 安装singularity工具

从 Github 直接下载 SingularityCE 适用于特定 Linux 发行版的最新版本（SingularityCE 是用 Go 语言编写的，建议从官方二进制文件中安装最新版本的 Go。参考 Go 安装的官方说明：https://golang.org/dl/以默认安装 Ubuntu 22.04 (jammy) 发行版的。Singularity（二）| 安装singularity工具。

2024-03-12 21:30:11 1594

原创 samtools

参考：https://bioinformatics.stackexchange.com/questions/18538/samtools-sort-most-efficient-memory-and-thread-settings-for-many-samples-on-a-c。idxstats 统计一个表格，4列，分别为 ”序列名，序列长度，比对上的 reads 数量，未比对上的 reads 数量”用于合并多个已排序的比对文件，生成一个包含所有输入记录的单一排序输出文件，同时保持现有的排序顺序。

2024-03-11 15:36:22 2763

原创 sambamba — samtools 的高效平替工具

sambamba 不仅可以对 BAM 文件进行排序、索引、过滤、统计、标记重复等常见的操作，还可以进行一些特殊的功能，比如区域过滤，标记重复序列，检测结构变异等。flagstat: 统计 BAM 文件中的 reads 的标志位，可以显示 QC 通过和失败的 reads 数目，以及各种配对情况和重复情况。view: 查看 SAM/BAM 文件的内容，可以指定输出格式和过滤条件，也可以查看参考序列的信息。提供一个或多个覆盖度阈值，对于每个阈值，会添加一个额外的列，显示区域中覆盖度超过此值的碱基的百分比。

2024-02-23 22:02:08 2264

原创 Kingfisher — 快速灵活的公共数据库下载工具

Kingfisher 是一个快速灵活的程序，用于从公共数据库下载序列文件 (及其元数据注释)，包括 European Nucleotide Archive (ENA)， NCBI SRA，亚马逊 AWS 和谷歌云。在 "get" 子命令中，Kingfisher 从一系列冗余的源中下载数据，按顺序尝试，直到其中一个成功。与使用 NCBI 的 SRA 工具相比，下载和提取阶段都可能更快。这个工具有两种主要模式——"get" 模式用于下载序列数据，而 "annotate" 模式用于下载元数据。

2024-02-16 14:43:47 2000

原创 FASTQ 文件压缩格式有哪些？

FASTQ 文件是用于存储测序数据的一种格式，它包含了大量的文本信息，因此通常占用大量的存储空间。与 gz 压缩相比，其耗费的运行时间大致相同，但却节省了超过一半的存储空间。可以将多个目录或文件打包成一个大文件，同时还可以透过 gzip/bzip2/xz 的支持，将该文件同时进行压缩。值得注意的是，根据 tar 打包出的文件是否压缩有不同的称呼，如果仅是打包。，与 gz 相比，不仅所需运行时间较少，还取得了更好的压缩效果。的支持进行压缩/解压缩，此时压缩文档名应为 *.tar.gz；

2024-01-15 16:49:54 2170

原创 Slurm集群管理系统

srun 有多种选项来指定资源要求，包括：最小和最大的节点数、处理器数、使用或不使用的特定节点，以及特定的节点特性（内存、磁盘空间、某些需要的功能等）。不同的节点的特性和硬件属性不同，设置分区可以帮助用户更好确定节点的特点，进而选择最适合自己的节点进行运算。例如，可以利用分配给作业的所有节点启动一个作业步骤，或者几个作业步骤可以相互独立的使用分配给作业的节点。分区可以被认为是作业队列，每个队列都有各种各样的约束，如作业大小限制、作业时间限制、允许使用的用户等。对于正在运行或排队的任务，可以使用。

2023-12-06 14:10:22 1232

原创群体遗传 — 核苷酸多样性π

核苷酸多样性的计算基于从一个种群中获得的多个样本 DNA 序列上相同位点碱基差异的平均值，反映了群体内不同个体 DNA 序列间的平均碱基差异比例，从而广泛用于表征种群的遗传多样性水平。在当前的群体分化研究中，我们更多的选择同时计算两个种群（野生和栽培种群间，驯化和未驯化间）的核苷酸多样性并进行比较，根据比较后的显著差异结果得到潜在受选择的区间。综上所述，在针对不同物种的研究的时候，可以选择尝试不同的滑动窗口来进行分析，选择比较合适的窗口来进行后续的选择分析。此外，选择压力一般发生在两个种群之间。

2023-12-05 18:55:35 12534 3

原创基因组变异注释 — ANNOVAR（一）

识别特定基因组区域的变异，例如 44 个物种的保守区域，预测转录因子结合位点，片段重复区域，GWAS hits，基因组变异数据库，DNAse I超敏位点，ENCODE H3K4Me1/H3K4Me3/H3K27Ac/CTCF 位点，ChIP-Seq 峰，RNA-Seq 峰，或许多其他基因组区间的注释。可以看到，总共的48万位点，其中有13万是在千人基因组计划出现的，有17万是在EXAC数据库出现，但是只有区区7527个位点是在COSMIC数据库出现，，在clinvar数据库的，有15575位点。

2023-12-05 15:07:20 4908

原创 UCSC基因组浏览器用法

这个项目是由国家卫生研究院（NIH）的一个计划资助的，其主要目标是揭示人类基因组不同部分的表观遗传状态，以及这些状态如何在不同的细胞类型、组织和疾病状态下变化。UCSC基因组浏览器是一个强大的在线工具，主要用于查看和分析多种生物的基因组数据。UCSC基因组浏览器对于基因组学、分子生物学和相关领域的研究人员来说是一个非常有价值的资源，它不仅提供了大量的基因组数据，还提供了强大的分析和可视化工具。：UCSC基因组浏览器包含了多种物种的基因组数据，包括人类、小鼠、斑马鱼等，用户可以选择不同的物种进行查看。

2023-11-29 20:37:44 6284 1

原创必备极速下载工具 — aria2

目前有非常多的 Aria2 Docker 方案，大多都整合了 WebUI 和文件管理功能，看似很好很强大，实际上都只是做了简单的打包的工作，完全没有考虑到核心的下载体验和资源占用等问题。是博主经过长时间使用和研究官方文档后总结出来的一套配置方案，其最初目的是为了解决这些问题，而且为 Aria2 添加了额外的一些功能，经过一年多时间的打磨已经积累了大量的使用者和良好的口碑，其中不乏一些知名开源项目开发者、影视字幕组、科技视频 UP 主。：在初始化下载的时候，我们可以使用选项在保存文件的时候使用不同的名字。

2023-11-28 20:45:44 11656 1

原创 GWAS 分析模型 | FaST-LMM

输入文件 SNP 数据应该为 PLINK 格式（ped/map, tped/tfam, bed/bim/fam, or fam/dat/map）。这些文件中的表型条目必须被设置为虚值并将被忽略（FaST-LMM 软件使用单独的表型文件）。指定一个小于核心数的数字可能会使计算机在运行 FastLmmC 时不会在程序的不同阶段消耗所有的 CPU 资源。第一列 familyID 与第二列 individualID 相连接从而为个体创建唯一的标识符，并与上述 PLINK 文件中的个体条目相匹配。

2023-11-27 19:53:18 2076

原创生信工具 | 测序数据质控与过滤 - fqtrim

在这种情况下，只对包含基因序列的读段进行修剪处理，而保留用于标识的条形码读段是有意义的。注意：默认情况下，fqtrim 会查找并修剪每个读数 3'-end 处的 poly-A 和 5'-end 处的 poly-T，因此在不需要自动修剪 poly-A/T 时（如基因组测序），应使用。该程序可接收 FASTA 或 FASTQ 格式的序列数据作为输入（压缩或以 stdin 流的形式），并能以统一的方式处理双端测序读段（即不分隔成对读段，并生成两个不同的成对读段输出文件，可选择压缩）。

2023-11-11 16:58:21 1119

原创 Linux中生信软件或工具的安装配置

以CentOS为例Linux有多种发行版本，各种发行版本之间安装软件包的方法和命令不一样，同发行版本之间安装软件包的方法也有不同。Linux主要有三大派系：红帽派系（Redhat、Centos、Oracle Linux）Debian派（Ubuntu、Kali）SUSE派系（SuSe、OpenSUSE）Red Hat是Linux服务器操作系统的主流，本文重点介绍红帽子派系CentOS中利用rpm软件管理机制和yum在线更新模式安装软件包的方法。一、利用自动化shell脚本直接安装 - Li

2021-12-30 16:44:58 1549

原创 R语言：Windows字体数据库里没有这样的字体

以调用"Times New Roman“为例# Calling Windows FontswindowsFonts(Times_New_Roman=windowsFont("Times New Roman"))element_text(family='Times_New_Roman', size = 13, face='bold')

2021-10-18 20:08:10 11602

原创 Linux下软件的Tarball安装

Linux下软件的Tarball安装参考：《鸟哥的Linux私房菜》安装软件是 root 的工作！步骤：取得原始档：将 tarball 文件在 /usr/local/src 目录下解压缩；取得步骤流程：进入新建立的目录底下，去查阅 INSTALL 与 README 等相关文件内容；相依属性软件安装：根据 INSTALL/README 的内容察看并安装好一些相依软件（非必要）；建立 makefile：以自动侦测程序（configure 或 config）侦测作业环境，并建立 Ma

2020-06-01 15:14:40 806

原创如何开启VirtualBox的共享粘贴板功能

解决方案：1.手动安装VBoxGuestAdditionssudo mkdir --p /media/cdromsudo mount -t auto /dev/cdrom /media/cdrom/cd /media/cdrom/sudo sh VBoxLinuxAdditions.run2.重启虚拟机

2020-04-20 22:34:55 695 1

原创 python中的%用法

1. 取模运算符：%代表取模，返回除法的余数。如：>>> 5 % 212. 字符串格式化表示字符串格式化操作，常用的操作有%s %d %r等。简单的说，这是一种将其他变量置入字符串特定位置以生成新字符串的操作，比如:n = "Aki""My name is %s" % n这段代码首先定义了一个名为n的变量，内容为Aki。然后下方的字符串中有一个%s，他的含...

2020-04-04 15:59:28 76253 4

原创怎样在python中输入文件路径

利用pandas载入文件：import pandas as pd以表型数据为例：pd.read_table('path')路径（path）类型：绝对路径：文件的真正存在的路径，是指从硬盘的根目录(盘符)开始，进行一级级目录指向文件。相对路径：就是以当前文件为基准进行一级级目录指向被引用的资源文件。以下是常用的表示当前目录和当前目录的父级目录的标识符：../ 表示当前文件所...

2020-04-03 20:53:19 8644

原创如何理解假设检验

如何理解假设检验实例课题：假如你是一名医生，现在你手中有一项课题，课题的内容是调查某山区中的健康成年男子的脉搏均数（次/分钟）与全国健康成年男子的平均水平是否有差异？你会如何开展这项课题呢？经过简单思考，我琢磨着我应该这么干！最初设想的计划：Step 1: 通过查阅过去的文献，我得知了全国健康成年男子的脉搏均数为72次/分钟。Step 2: 带上我的小伙伴直奔该山区，俺打算拼上这条老...

2020-03-20 18:37:40 1139 1

原创零基础理解抽样分布

抽样分布文章目录抽样分布1 样本统计量2 正态分布3 三大抽样分布3.1 卡方分布3.2 t分布3.3 F分布4 统计量的抽样分布4.1 样本均值的抽样分布4.2 样本比例的抽样分布4.3 样本方差的抽样分布定义：样本统计量的概率分布，是一种理论分布。——在重复选取容量为 n 的样本时，由该统计量的所有可能取值形成的相对频数分布。意义：提供了样本统计量长远而稳定的信息，是进行统计推断的理论...

2020-03-06 17:51:13 1615

原创如何理解总体标准差、样本标准差与标准误

如何理解总体标准差、样本标准差与标准误1 总体标准差已知随机变量 XXX 的数学期望为 μ\muμ，标准差为 σ\sigmaσ，则其方差为：σ2=E[(X−μ)2]\sigma^2=E[(X-\mu)^2]σ2=E[(X−μ)2]此处 σ\sigmaσ 即为随机变量 XXX 的总体标准差！2 样本标准差上面的式子中，我们需要准确的了解随机变量 XXX 的总体分布，从而可以计算出其总体...

2020-03-06 17:38:02 26875

原创相关分析的简要介绍

相关分析文章目录相关分析1 相关关系1.1 相关关系的种类1.2 相关分析的特点2 相关性度量2.1 相关系数2.1.1 Pearson相关系数2.1.2 Spearman相关系数2.1.3 Kendall相关系数2.2 线性相关的假设检验1 相关关系相关关系指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时，相应的另一个变量可能有多个不同值与之对应。相关关系可以理解为多个变...

2020-03-03 20:16:49 1693

原创变量及资料类型

变量及资料类型变量的类型决定资料的类型一份统计资料中可能包括所有的变量类型变量类型变量按变量值的性质分为不同类型：类型取值举例名义型变量不连续数值性别、种族、肤色、血型、颜色有序型变量不连续数值喜欢程度(不喜欢/一般/喜欢/很喜欢)、临床检验结果(-/+/++/+++)离散型变量不连续数值人数、红细胞计数连续型变量连续数值身高...

2020-03-03 20:07:13 5059

long_1998的博客