- 博客(15)
- 收藏
- 关注
原创 NGS分析
1、R1\R2还有参考文件名称可先输入首字母或多输入几个字母按TAB键填充,这样不会出错。2、需要输入路径的情况,最好是复制粘贴,这样不容易出错。
2026-03-13 14:03:18
35
原创 【无标题】
必须做的“质量控制”,一个 transcript 对应多个 GeneID?# transcript ↔ gene overlap(核心)#提取 transcript ↔ GeneID 表(关键)“这个转录本落在哪个已知基因上?#BAM → BED12(必须)
2026-03-12 11:29:00
15
原创 降解组数据分析笔记
降解组数据=被切开的mRNA碎片测序数据 (Degradome sequencing / PARE sequencing Parallel Analysis of RNA Ends)。**只测 mRNA 被切开后的 5’ 末端片段**, 用来**精准找到 miRNA 在 mRNA 上的剪切位点**。
2026-02-27 15:25:20
973
原创 接头与低质量碱基修剪(Cutadapt / Trimmomatic)区别
— 它会用 “滑动窗口”(比如窗口大小 4,平均质量 < 20 则修剪)逐段评估 reads 质量,能避免 “一刀切” 修剪导致的有效序列丢失;同时附带接头去除、去除含过多 N 的 reads、长度过滤等功能,是 “一站式” 工具。—— 哪怕接头只残留一部分(比如降解组 reads 末端的 partial adapter),它也能通过序列比对找到并剪切,还支持 “接头 + polyA/T 尾” 一次性去除(降解组常需去除 polyA 污染)。直接剪掉所有 Q<20 的末端),逻辑简单。
2026-02-27 14:51:42
385
原创 转录组后续分析(继unigene库之后)
必须提供(即.tar.gz文件或解压后的文件夹路径)另外,(官方一般只提供等较高层级数据库)Completecd-hit-est对同一个 Trinity 基因 ID(如 TRINITY_DN43123_c0_g1_i1)有多条不同长度的序列进行重新命名多拷贝基因(D)
2025-11-06 11:17:51
1119
原创 转录组从头组装相关概念
2. Chrysalis(蛹):聚类相似 contigs(相似区域>k - 1 bp ),构建 de Bruijn 图,区分不同 components(组件 );1. Inchworm(虫):将 clean reads 切割为 k - mers(短片段 ),依重叠关系用贪婪算法延伸,生成初始 contigs(连续序列 )。3. Butterfly(蝶):拆分图为线性序列,利用 reads 配对关系消除错误序列,得到最终转录本序列。
2025-10-20 19:58:39
240
原创 用 DESeq2 筛选 DEGs
DEGs 即差异表达基因(Differentially Expressed Genes),DESeq2 是一个专门针对 RNA 测序数据设计的 R 语言包,它采用负二项分布模型来估计基因表达水平的离散性,并鉴定差异表达基因。(1)运行prepDE_fixed.py3,从stringtie的输出中提取基因和转录本的表达计数矩阵(count matrices),运行成功后生成。(transcript count matrix)文件。(2)运行run_DESeq2.R文件,实现。
2025-10-11 22:13:42
517
原创 转录组数据分析笔记
去除接头和低质量序列,减少变异检测(如 SNP calling)的假阳性;:预处理原始 reads,提高后续比对到参考基因组的准确性;(2)使用hisat2将质控后的测序数据比对到指定参考基因组。:提升数据信噪比,保证后续峰识别的可靠。c.sam文件转成bam文件并排序。a.构建指定基因组索引。all. 使用脚本文件批量处理。b.进行单端测序数据比对。
2025-10-11 17:31:23
250
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1