- 博客(187)
- 收藏
- 关注
原创 BSA分析优缺点
BSA分析是一种高效、经济的基因定位方法,结合BSA-seq技术在农业育种和遗传研究中应用广泛。其优点在于快速、低成本和广适用性,但受限于分辨率和表型评估的准确性。送样测序需注重DNA质量、测序深度和样本信息管理,分析过程中需结合专业生物信息学工具。遵循上述注意事项,可显著提高BSA分析的成功率和结果可靠性。
2025-07-17 14:00:08
原创 群体分析中BSA 分析简介
BSA是一种基于表型差异的基因定位方法,最初由Michelmore等人于1991年提出,用于快速鉴定与目标性状相关的遗传标记或基因位点。它的核心思想是通过比较具有极端表型的两个群体(称为“混合池”),在基因组水平上寻找与目标性状相关的差异位点。BSA分析是一种高效、经济的遗传定位方法,通过结合NGS技术的BSA-seq,极大地提升了定位精度和效率。它在农业育种和遗传学研究中具有广泛应用前景,尤其适合快速筛选与重要性状相关的基因或标记。
2025-07-17 13:29:00
273
原创 NumPy 数组存储字符串的方法
NumPy 数组也可以存储字符串,方法是通过指定dtype(数据类型)为字符串类型来创建数组。NumPy 支持字符串类型,通常使用dtype=str或dtype='U'(Unicode 字符串)来存储字符串。
2025-07-17 13:13:06
86
原创 np.array([])(NumPy 数组)和普通 Python list(列表)的区别
在 Python 中,(NumPy 数组)和普通 Pythonlist。
2025-07-17 09:23:18
373
原创 cyvcf2 中, variant.gt_types 和 ariant.genotypes 之间的区别
属性返回值类型内容描述内存占用适用场景NumPy 数组(整数)基因型类别(0, 1, 2, 3)较低快速统计基因型分布、缺失率列表或 NumPy 数组(多维)完整基因型(等位基因索引 + 相位)较高详细的等位基因或相位分析。
2025-07-16 15:42:46
548
原创 cyvcf2 常用知识点
cyvcf2 提供了高效、灵活的 VCF/BCF 文件操作接口,适合处理大规模遗传变异数据。常用操作包括加载文件、迭代变异、访问基因型、筛选变异和修改文件。注意 NumPy 数组管理、文件关闭和字段类型检查,以确保代码健壮性。
2025-07-11 13:47:52
318
原创 cyvcf2 知识点详解
cyvcf2 是一个功能强大且高效的 Python 库,专为快速解析和处理 VCF/BCF 文件设计,适合生物信息学研究者处理大规模遗传变异数据。其结合 htslib 的高性能和 Python 的易用性,支持区域查询、基因型分析、变异过滤和文件修改等功能。尽管存在一些编码和兼容性限制,但通过合理配置和使用,cyvcf2 是处理 VCF 文件的理想工具。
2025-07-11 13:43:47
1363
原创 在指定conda 环境里安装 jupyter 和 python kernel的方法
Conda 环境中安装 Python 后,IPython Kernel 通常会自动配置为默认 Kernel。如果需要手动确保 Python Kernel 可用,可以安装。完成上述步骤后,你将在指定 Conda 环境中成功配置 Jupyter 和 Python Kernel!在浏览器中打开 Jupyter,点击“New”按钮,检查是否可以看到。创建一个 Notebook,选择。的 Kernel 选项。假设创建并配置一个名为。
2025-07-10 16:13:42
842
原创 jupyter 和 kernel 之间的关系
Jupyter 提供交互式界面,Kernel 提供代码执行能力,二者通过消息协议协作完成交互式计算。Jupyter 的灵活性很大程度上得益于 Kernel 的多语言支持和独立性,使得它成为数据科学和科研领域的强大工具。如果你需要更深入的技术细节(如 Kernel 的通信协议)或特定 Kernel 的配置方法,请告诉我!
2025-07-10 16:11:23
418
原创 scanpy保存图片的常用方法汇总
在使用 Scanpy(一个用于单细胞RNA测序数据分析的Python库)时,保存图片(如可视化结果)是常见的操作。Scanpy 的绘图功能主要基于 Matplotlib 和 Seaborn,保存图片的方法也与这些库的保存机制一致。以下是 Scanpy 保存图片的详细方法及注意事项:Scanpy 的绘图函数(如 、、 等)通常会返回 Matplotlib 的 对象或直接显示图形。要保存图片,可以通过 Matplotlib 的 函数实现。说明:将当前图形保存为文件,文件名可以指定路径和扩展名(如 、、
2025-07-08 17:39:29
265
原创 scanpy 中的layer用法详解
定义是一个字典(dict)类型的属性,键是字符串(表示层的名称,如"raw"),值是与主矩阵adata.X形状相同的矩阵(稀疏或密集)。作用保存不同处理阶段的表达数据(如原始计数、归一化、log转换、标准化)。便于在分析中切换不同数据表示(如在 PCA 使用标准化数据,在可视化使用原始计数)。提高内存效率,避免重复存储相同数据。存储位置的每个矩阵与adata.X共享相同的细胞(adata.obs)和基因(adata.var)索引。示例结构。
2025-07-08 11:28:27
287
原创 python 常用数据类型 相互转换
源类型可转换目标类型注意事项int浮点转整数会截断小数部分float转整数丢失小数部分,精度问题complexstr, bool不可直接转 int/float,需提取实部str需符合目标格式,空字符串转为 FalseboolTrue 转为 1,False 转为 0list转 dict 需键值对格式,str 需元素为字符串tuple同上set无序,转换后顺序不定dict默认转键,需 .items() 转键值对NoneTypestr, bool。
2025-06-20 07:36:16
599
原创 python常用数据类型,及性质
数据类型可变性有序性示例主要用途int不可变42整数运算float不可变3.14浮点运算complex不可变3 + 4j复数运算str不可变有序"hello"文本处理bool不可变True逻辑判断list可变有序动态列表、序列操作tuple不可变有序固定序列、键值set可变无序{1, 2, 3}去重、集合运算dict可变无序*键值映射、快速查找NoneType不可变None空值、占位符。
2025-06-20 07:31:46
827
原创 VIRT, RES,SHR之间的关系
VIRT 是总分配的虚拟内存,RES 是实际使用的物理内存,SHR 是 RES 中与其他进程共享的部分。它们的关系是:VIRT ≥ RES ≥ SHR。理解这些指标有助于分析进程的内存使用效率和系统资源分配情况。
2025-04-12 21:22:01
569
原创 R语言安装生物信息数据库包
在生物信息学领域,R语言是重要的数据分析工具。今天,我们就来聊聊在R语言环境下,安装生物信息数据库包(org.*.*.db)的步骤。
2025-02-21 10:31:46
583
原创 R语言安装生物信息数据库包
在生物信息学领域,R语言是重要的数据分析工具。今天,我们就来聊聊在R语言环境下,安装生物信息数据库包(org.*.*.db)的步骤。
2025-02-21 10:00:34
817
原创 Docker构建时,设定默认进入的工作目录的方法
通过以上几种方法,你可以根据自己的需求灵活设定 Docker 容器默认进入的目录。如果你不想修改镜像,而是在每次运行容器时临时指定默认进入的目录,可以使用。如果你使用的是 Docker Compose 来管理容器,可以在。这样,即使镜像本身有默认的工作目录设置,也会被这个选项覆盖。指令来设置容器启动时的默认工作目录。如果你是通过构建镜像的方式来运行容器,那么可以在。构建镜像并运行容器时,容器会默认进入。指定了容器启动后默认进入的目录为。将容器的默认工作目录设置为。此时,容器启动后会默认进入。
2025-02-20 14:19:04
566
原创 宿主机是 WSL,在WSL里的docker镜像内创建了文件,关闭镜像后,从window上查看保留的文件
当你使用 WSL(Windows Subsystem for Linux)作为宿主机,通过 Docker 挂载目录将文件保存到 WSL 文件系统中后,若想在 Windows 上查看这些保留的文件(
2025-02-20 13:57:50
145
原创 从Docker镜像到Singularity的sif 格式镜像的转换
在容器化技术的应用中,我们常常会根据不同的需求和场景,在不同的容器技术之间进行转换。今天,我们就来详细介绍一下如何将本地的Docker镜像转换为Singularity镜像。
2025-02-18 16:24:47
504
原创 使用 `scanpy` 观察 `AnnData` 对象内部数据结构
根据你的具体需求,你可以对代码进行修改和扩展,例如筛选数据、进行更复杂的可视化或进行更深入的统计分析。这将输出稀疏矩阵或密集矩阵,取决于存储方式,通常是稀疏矩阵,因为基因表达矩阵通常是稀疏的(许多基因在大多数细胞中不表达)。的内部数据结构,包括细胞和基因的元数据、多维细胞特征数据,以及基因表达矩阵。的功能,可以对数据进行各种操作和可视化,以更好地理解数据的特征和分布。部分的数据,也就是细胞级别的元数据。部分的数据,即基因级别的元数据。的信息,告诉你数据集中细胞和基因的数量。通过上述步骤,你可以全面观察。
2025-01-19 07:36:18
369
原创 AnnData对象数据结构解释:n_obs × n_vars
是一个非常丰富的数据结构,将单细胞测序中的细胞和基因信息,以及它们的各种元数据、统计信息和空间信息整合在一起,为单细胞分析提供了便利的数据存储和操作框架。中的数据进行筛选、分析、可视化和挖掘,以揭示单细胞水平的生物学过程和组织架构。
2025-01-19 06:58:52
306
原创 ensembl_gene_id 怎么区分物种
前缀标识Ensembl数据库通过不同的前缀来区分不同物种的基因。以常见的几种前缀为例:ENSG:代表人类(Homo sapiens)基因。例如“ENSG00000139618”是人类的一个基因标识符。这是因为在Ensembl对人类基因组进行注释和编号时,统一使用“ENSG”作为前缀,方便用户在看到基因标识符时能快速判断是人类基因。ENSMUSG:用于标识小鼠(Mus musculus)基因。如果一个基因标识符是“ENSMUSG00000029583”,就可以知道这个基因来自小鼠。这种前缀的设定是
2025-01-18 21:57:12
559
原创 正义链RNA和反义链RNA之间的 异同点
相同点化学组成相同:正义链RNA和反义链RNA在化学组成上是相似的,它们都是由核糖核苷酸组成。这些核糖核苷酸包含磷酸、核糖和含氮碱基(腺嘌呤A、鸟嘌呤G、胞嘧啶C和尿嘧啶U),通过磷酸二酯键连接形成长链状的RNA分子。基本结构类似:二者都具有单链的基本结构,不过在某些情况下,它们可能会通过自身折叠或者与其他RNA分子相互作用形成二级结构,如茎 - 环结构、发夹结构等。这些二级结构对于它们的功能发挥有着重要的作用,比如在与蛋白质结合或者调节基因表达等过程中。合成方式相关:它们都是通过转录过程合成的。
2025-01-03 17:44:51
645
原创 外显子 内含子 基因间 区之间的关系
**内含子(intron)基因间区(intergenic region)**是基因组结构中的重要组成部分,它们共同决定了基因的组织和功能。
2024-12-06 15:12:12
708
原创 data.tl.cal_qc() 中.tl的含义
的分析工具命名空间,专门用于提供各种数据操作和分析方法。通过这种模块化设计,功能划分更清晰,便于用户快速理解和调用。它通常用于封装分析工具和方法,是一个命名空间,专门存放针对数据操作和分析的功能。(或类似的 Python 数据分析库)中,提供了一系列分析功能。
2024-11-26 16:58:36
128
原创 shell查看服务器的内存和CPU,实时使用情况
提供了更直观的实时系统资源监控,显示 CPU、内存、进程详细信息等。命令以显示实时的系统性能信息,包括 CPU 和内存使用情况。这条命令每秒刷新一次,显示 CPU 和内存的实时使用数据。提供关于 CPU、内存、I/O 等的实时监控数据。是一个功能强大的监控工具,支持实时和历史监控。是监控 CPU 和磁盘 I/O 的工具。以上工具可以根据实际需要选择最适合你的。
2024-11-26 15:21:26
2415
原创 万维网的工作原理
当用户在浏览器中输入网址并请求访问某个网页时,浏览器会向对应的服务器发送请求,服务器处理该请求并返回相应的网页内容。:传输控制协议(TCP)和互联网协议(IP)定义了数据在网络中的传输方式,确保数据可靠地从客户端传输到服务器,反之亦然。:超文本传输协议(HTTP)和其安全版本 HTTPS 定义了客户端与服务器之间的通信规则,规定了请求和响应的格式。:浏览器按照 HTTP/HTTPS 协议,向服务器发送请求报文,通常是 GET 请求,要求获取指定的资源。
2024-11-25 22:57:05
1336
原创 有单细胞注释标记基因,对空转cluster 数据进行注释
差异基因分析:使用scanpy或其他工具找出每个cluster的特征基因。细胞类型预测:使用标记基因数据库或自动注释工具(如SingleRscType等)进行注释。可视化:使用UMAP等降维方法将注释的结果进行可视化,帮助理解细胞类型分布。
2024-11-25 17:02:01
422
原创 Scanpy用已知的cell mark来做细胞注释,请给出详细步骤,和完整的脚本
通过此脚本,您可以利用已知细胞标记有效地注释单细胞数据集,并生成可视化结果以验证注释的准确性。如果数据集较大,可以选择只绘制关键标记基因的表达图或热图以节省计算时间。用**Scanpy(Python)**基于已知细胞标记(cell markers)进行细胞注释的详细步骤和完整脚本。在UMAP/t-SNE中绘制标记基因的表达图,观察不同标记基因在细胞簇中的表达情况。使用标记基因的表达模式和打分结果为cluster分配细胞类型标签。为每个细胞计算指定标记基因集的表达评分。)和降维(UMAP或t-SNE)。
2024-11-21 15:41:02
369
原创 vim 一次注释多行 的几种方法
在中一次注释多行是一个常见操作。EscCtrl+vShift+iEscEsc<起始行><结束行>安装插件(如果尚未安装)。
2024-11-21 09:50:25
2864
Phylogenies from distance matrix by N-J or UPGMA method Version: EMBOSS:6.6.0.0 PHYLIPNEW:3.69.650
2025-02-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人