- 博客(18)
- 收藏
- 关注
原创 关于RNAseq——从fastq到gene_counts全流程
本文提供了一份RNA-seq数据分析的保姆级指南,详细介绍了从环境准备到结果获取的全流程操作。主要内容包括:环境检查、项目配置、数据导入、一键运行分析以及结果整合。重点强调了文件夹结构规划、自动化脚本使用和注意事项,特别适合新手用户按照步骤完成RNA-seq数据的标准分析流程。指南还提供了常见问题的解决方法,确保用户能够顺利完成从原始数据到表达矩阵的整个分析过程。
2026-01-12 15:19:09
310
原创 【学习笔记】关于RNA_seq和Ribo_seq技术的对比和BAM生成
好的,这是一个非常重要的生物信息学概念,尤其在处理转录组数据时。CDS的全称是,即编码序列。它指的是基因的DNA或RNA序列中,从起始密码子(通常是AUG)到终止密码子(UAA, UAG, UGA)之间的那一段序列。这段序列直接决定了蛋白质的氨基酸序列。需要注意的是:CDS不等于整个mRNA。mRNA还包括5‘ 和3’ 非翻译区,这些区域不编码蛋白质,但对翻译的调控、稳定性和定位至关重要。一个基因可以通过可变剪接产生多个不同的转录本(mRNA异构体)。这些不同的转录本有着不同长度。
2025-12-16 19:48:11
801
原创 R语言机器学习系列|随机森林模型特征重要性排序的R语言实现
特征重要性是一个指标,用于衡量数据集中每个特征(变量)对于构建一个预测模型(尤其是树模型)的贡献程度。它回答了这个问题:“在模型做决策时,哪个特征最重要?一个特征越频繁地被用来分割数据,并且它带来的不纯度下降(信息增益)越大,那么这个特征就越重要。特征重要性排序:0.35 (35%)0.25 (25%)0.20 (20%)0.10 (10%)0.10 (10%)这清晰地告诉你,在预测(比如)客户是否会购买产品时,“账户余额”是最重要的决定性因素。方面分类问题回归问题核心指标。
2025-11-14 11:07:54
1014
原创 R语言 | 带重要性相关热图和贡献图如何解释?如何绘制随机森林计算结果重要性及相关性图?[学习笔记]
找出玉米地和稻田里的核心微生物(在“纲”的水平上)对土壤养分有什么样的潜在生物学贡献。他们先用多元回归建模和方差分解分析来确定每个微生物有多重要(即它单独解释了多大比例的土壤养分变化),这个重要性用圆圈的大小来表示。同时,他们计算了斯皮尔曼相关性来确定每个微生物与养分之间是正相关还是负相关,这个关系用圆圈的颜色(红/蓝)来表示。如何读图:看一个大圆圈-> 意味着这个微生物是影响土壤养分的关键角色之一。看一个红圆圈-> 意味着这个微生物可能促进了该养分的积累。看一个蓝圆圈。
2025-11-11 20:42:05
1312
原创 【空间聚类方法浅解】——生信实习计划_phase1-2
GraphST 是一种专门为空间转录组设计的图神经网络方法,能够结合空间位置和表达数据进行更准确的分析,尤其在复杂组织结构的识别、样本整合和细胞去卷积方面表现优异。相比 Louvain、Leiden、Seurat 等传统方法,它不仅考虑了空间上下文,还能处理批次效应和实现 scRNA-seq 的空间映射,是全流程空间转录组分析的利器。基于模块度优化(Modularity Optimization)的社区检测算法。构建kNN 图后,将高连接度的节点聚集在一起。什么是KNN图什么是模块度优化。
2025-08-06 14:55:10
898
原创 Day09-15 论文学习及复现(一)——文献解读篇
B细胞是抗肿瘤"多面手"TAABs通过抗原呈递和T细胞激活,独立于抗体分泌发挥抗肿瘤作用。"细胞团队"协作至关重要B细胞与CD4⁺ T细胞的空间互作是激活抗肿瘤免疫的关键。转化医学新靶点增强TAABs浸润或功能可能成为下一代免疫治疗策略。一句话总结“肿瘤浸润B细胞中的TAABs亚群,是连接细胞免疫与体液免疫的‘超级辅助者’,为癌症免疫治疗开辟新路径。此解读基于。
2025-07-04 10:06:25
836
原创 Day05-08经典绘图
随机机森林(random forest)是一种组成式的有监督学习方法,可视为决策树的扩展。随机森林通过对对象和变量进行抽样构建预测模型,即生成多个决策树,并依次对对象进行分类。最后将各决策树的分类结果汇总,所有预测类别中的众数类别即为随机森林所预测的该对象的类别,分类准确率提升。假设训练集中共有N个对象、M个变量,从训练集中随机有放回地抽取N个对象构建决策树;在每一个节点随机抽取m<M个变量,将其作为分割该节点的候选变量,每一个节点处的变量数应一致;
2025-06-20 08:59:13
662
原创 对于iMeta多组学文章的图片复现
本文图片复现参考文章信息如下figure 1BFigure 2AFigure 3A & G FunctionFigure 3B & H FunctionFigure 3C & I FunctionFigure 3D & L FunctionFigure 3AFigure 4A```replst <- list(Cecum = c(“E
2025-06-06 10:13:00
378
原创 打卡训练Day6
数据初步可视化1.单特征可视化:连续变量箱线图(还说了核密度直方图)、离散特征直方图2.特征和标签关系可视化3.箱线图美化—>直方图作业:去针对其他特征绘制单特征图和特征和标签的关系图,并且试图观察出一些有意思的结论。
2025-04-25 22:06:41
701
原创 打卡训练Day6
浙大疏锦行数据初步可视化1.单特征可视化:连续变量箱线图(还说了核密度直方图)、离散特征直方图2.特征和标签关系可视化3.箱线图美化—>直方图作业:去针对其他特征绘制单特征图和特征和标签的关系图,并且试图观察出一些有意思的结论。
2025-04-25 22:02:47
2021
原创 打卡训练Day5
解决方案:drop_first=True 或手动删除基准列。- 列表存储技巧:使用discrete_lists收集待处理列。- 自动遍历:通过data.columns获取所有列名。- 结果验证:通过data.columns检查新生成列。- 数据类型判断:dtype == 'object'- 数学原理:消除N-1个虚拟变量的线性相关性。- 成因:保留全部类别导致特征矩阵列线性相关。- 预处理流程:数据读取→变量识别→编码处理。- 功能:删除每个分类变量的第一个类别列。- 新列命名规则:原列名_类别值。
2025-04-24 21:23:18
369
原创 打卡训练Day4
均值填补(数值型数据):mean_value = data['列名'].mean() → data['列名'] = data['列名'].fillna(mean_value)众数填补(分类型数据):mode = data['列名'].mode()[0] → data['列名'] = data['列名'].fillna(mode)完成后在py文件中独立完成一遍,并且利用debugger工具来查看属性(不借助函数显式查看)----养成利用debugger工具的习惯。查看数据(尺寸信息、查看列名等方法)
2025-04-23 22:29:40
336
原创 打卡训练Day3
创建一个包含三个字符串元素的列表 tech_list,元素分别为 “Python”, “Java”, “Go”。修改 tech_list 中的第二个元素(索引为 1),将其从 “Java” 更改为 “Ruby”。定义一个包含整数的列表 scores,赋值为 [85, 92, 78, 65, 95, 88]。- 变量初始化规范:excellent_count = 0 / total_score = 0。- 列表初始化语法:scores = [85, 92, 78, 65, 95, 88]
2025-04-22 14:26:46
1985
1
原创 打卡训练Day2
比较 score_a 是否大于 score_b,将比较结果(布尔值)存储在变量 is_a_higher 中;比较 score_a 是否小于等于 score_b,将结果存储在变量 is_a_lower_or_equal 中;比较 score_a 是否不等于 score_b,将结果存储在变量 is_different 中。| 字典(Dict) | 键值对、键唯一 | `{"name": "小明"}` |print(f"姓名:\"{name}\"") # 输出:姓名:"小明"
2025-04-21 23:02:01
652
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅