田不甜啊-CSDN博客

原创零基础小白笔记9 | 使用macs2进行调峰

是一个用于存储基因组测序数据的文件，通常包含控制样本的信号强度或测序深度的信息，包含了对应于基因组上每个位置的控制样本的测序信号值，可以转换为bw文件进一步可视化；1.macs2是一个用于分析染色质免疫共沉淀（ChIP-seq）数据的工具，它可以用来识别转录因子结合位点和组蛋白修饰位点，是由刘小乐实验室开发的一款在ubuntu上运行的专门处理CHIP-Seq数据的下游软件；1.macs2 bdgcmp是 MACS2 工具集中的一个命令，用于比较两个信号文件（如测序峰值调用的结果）之间的差异。

2024-01-09 19:31:49 3585 4

原创零基础小白笔记8 | 将bam文件转换为bw文件并进行可视化

2.使用工具：deeptools是一个用于深度分析测序数据的工具集，其中包含多个子命令，其中bamCoverage可以将BAM 文件转换成 BigWig 格式的输出文件。1.bw文件，即bigwig文件，是一种常用的用于存储基因组测序数据的文件格式，它允许高效存储大量基因组范围的信号数据，并支持快速的数据检索与可视化。（2.2）设置参考基因组为mm10（本次实验动物模型），选择染色体及区域，最左侧轴设置显示区域的大小；所以bw文件在转换完成后需要先下载到本地才能在IGV上进行可视化分析；

2024-01-02 22:46:30 7035

原创零基础小白笔记7 | 对bam文件进行去重和过滤

1.samtools index是 Samtools 工具包中的一个命令，用于为 BAM 文件创建索引，以便于快速的随机访问。通过 Picard 工具，可以识别和标记 PCR 重复，这对于测序数据的后续分析是很重要的。（2.1）markduplicates：是 Picard 工具集中的一个命令行工具，主要用于识别和标记测序数据中的 PCR 重复。1.samtools view 是 Samtools 工具包中的一个命令，用于查看和转换 SAM/BAM 格式的文件，也可用于过滤掉质量比较低的序列；

2024-01-01 10:04:09 6069 3

原创零基础小白笔记6 | 使用bowtie2进行数据比对

（3）sam文件：是一种用于存储测序数据的比对结果的常用的文本格式，通常包含了测序数据中每个读取序列的比对位置、比对质量、序列标识等信息；（1）samtools工具是一个用于处理sam和bam格式文件的工具集，可以对测序数据进行处理、分析和转换，如格式转换、排序和索引、对比文件处理、统计信息和比对操作等；（1）排序后的BAM文件按照染色体的编号和起始位置进行排序，可以方便的进行基因组序列的比对分析、注释等操作；（2）该命令中，mm10.fa为参考基因文件，mm10是索引文件前缀；命令中表示用6个线程分析；

2023-12-29 15:25:19 5580 1

原创零基础小白笔记5 | 数据清洗与再次质控

-phred33：表示测序平台使用的Phred quality score，phred33对应(Sanger/Illumina 1.9+ encoding)，-phred64对应(Illumina 1.5 encoding) 【还记得质控报告的基本信息那个框框吧，对的，就是在那看】-q：即--quality: 指定最小的质量值，低于该值的序列将被去除，默认为20，本分析设为25；--length：指定最小的序列长度，短于该长度的序列将被去除，默认为20；-o：即--outdir，用于指明输出路径；

2023-12-26 10:53:53 959 3

原创零基础小白笔记4 | 数据质控报告全解读

（2）图中每1个boxplot都是该位置的所有序列的测序质量的一个统计，上面的bar是90%分位数，下面的bar是10%分位数，箱子的中间的横线是50%分位数，箱子的上边是75%分位数，下边是25%分位数；（1）tile代表每一次测序荧光扫描的最小单位，该图主要是防止在测序过程中,某些tail受到不可控因素的影响而出现测序质量偏低的情况；（1）横轴是0-40，表示的是Q值，Q值越大，测序质量越高；（4）%GC 表示的是整体序列中的GC含量，一般是物种特异的，比如人类细胞就是42%左右；标记为差的碱基序列；

2023-12-25 22:03:10 1743 1

原创零基础小白笔记3| 数据处理与质控

（2.1）fastq-dump 是 NCBI SRA Toolkit 中的命令，可从 NCBI Sequence Read Archive（SRA）下载原始测序数据并将其转换成 fastq 格式。--split-3: 将双端测序数据分割成两个独立的 FASTQ 文件，一个包含第一端序列，另一个包含第二端序列。--gzip：对生成的 FASTQ 文件进行 gzip 压缩，减小文件大小。: 指定输出目录，将生成的质量控制结果文件保存在指定的目录中。：指定输出目录，即将生成的 FASTQ 文件存放的位置。

2023-12-24 09:00:00 1089

原创零基础小白笔记2 |数据与样本信息的获取

（2.2）得到runinfo.csv格式文件后需要保留所需样本信息，删除不需要的信息：目前只探索到了一个比较“foolish”的办法：即使用vim文本编辑器进行编辑，具体用法比较简单基础，网络上很多资源，大家也可以自行查找。（2.1）esearch命令：是 NCBI（美国国家生物技术信息中心）提供的一个用于在其数据库中进行检索的命令行工具；NGO表示未生长的卵母细胞；（4.2）如果nohup命令使用效果不好，可以使用screen命令：（详细用法也可再自行学习）（1）平台信息为：（获取SRR序号时的页面）

2023-12-23 15:55:56 798 3

原创零基础小白笔记1 | ChIP-seq原理、操作与分析流程

（4）序列对比：使用bowtie2进行mapping，也就是与参考基因组序列进行比对，得到sam文件，后使用samtools进行排序得到bam文件；（8）数据分析：对测序得到的数据进行分析，包括序列比对、峰识别、富集区域的标定等步骤，以得到蛋白质与染色质相互作用的信息，如蛋白质结合位点、染色质富集区域等。（3）然后通过测序，可获得组蛋白在染色体上的分布情况，从而确定组蛋白修饰相关的特定位点，还可以确定组蛋白修饰酶类的靶标。（2）原始数据质控：使用fastqc对原始数据进行质控，得到网页版报告（html）；

2023-12-23 10:17:25 3423 2