自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 零基础小白笔记9 | 使用macs2进行调峰

是一个用于存储基因组测序数据的文件,通常包含控制样本的信号强度或测序深度的信息,包含了对应于基因组上每个位置的控制样本的测序信号值,可以转换为bw文件进一步可视化;1.macs2是一个用于分析染色质免疫共沉淀(ChIP-seq)数据的工具,它可以用来识别转录因子结合位点和组蛋白修饰位点,是由刘小乐实验室开发的一款在ubuntu上运行的专门处理CHIP-Seq数据的下游软件;1.macs2 bdgcmp是 MACS2 工具集中的一个命令,用于比较两个信号文件(如测序峰值调用的结果)之间的差异。

2024-01-09 19:31:49 2693 3

原创 零基础小白笔记8 | 将bam文件转换为bw文件并进行可视化

2.使用工具:deeptools是一个用于深度分析测序数据的工具集,其中包含多个子命令,其中bamCoverage可以将BAM 文件转换成 BigWig 格式的输出文件。1.bw文件,即bigwig文件,是一种常用的用于存储基因组测序数据的文件格式,它允许高效存储大量基因组范围的信号数据,并支持快速的数据检索与可视化。(2.2)设置参考基因组为mm10(本次实验动物模型),选择染色体及区域,最左侧轴设置显示区域的大小;所以bw文件在转换完成后需要先下载到本地才能在IGV上进行可视化分析;

2024-01-02 22:46:30 4545

原创 零基础小白笔记7 | 对bam文件进行去重和过滤

1.samtools index是 Samtools 工具包中的一个命令,用于为 BAM 文件创建索引,以便于快速的随机访问。通过 Picard 工具,可以识别和标记 PCR 重复,这对于测序数据的后续分析是很重要的。(2.1)markduplicates:是 Picard 工具集中的一个命令行工具,主要用于识别和标记测序数据中的 PCR 重复。1.samtools view 是 Samtools 工具包中的一个命令,用于查看和转换 SAM/BAM 格式的文件,也可用于过滤掉质量比较低的序列;

2024-01-01 10:04:09 4188 2

原创 零基础小白笔记6 | 使用bowtie2进行数据比对

(3)sam文件:是一种用于存储测序数据的比对结果的常用的文本格式,通常包含了测序数据中每个读取序列的比对位置、比对质量、序列标识等信息;(1)samtools工具是一个用于处理sam和bam格式文件的工具集,可以对测序数据进行处理、分析和转换,如格式转换、排序和索引、对比文件处理、统计信息和比对操作等;(1)排序后的BAM文件按照染色体的编号和起始位置进行排序,可以方便的进行基因组序列的比对分析、注释等操作;(2)该命令中,mm10.fa为参考基因文件,mm10是索引文件前缀;命令中表示用6个线程分析;

2023-12-29 15:25:19 4361 1

原创 零基础小白笔记5 | 数据清洗与再次质控

-phred33:表示测序平台使用的Phred quality score,phred33对应(Sanger/Illumina 1.9+ encoding),-phred64对应(Illumina 1.5 encoding) 【还记得质控报告的基本信息那个框框吧,对的,就是在那看】-q:即--quality: 指定最小的质量值,低于该值的序列将被去除,默认为20,本分析设为25;--length:指定最小的序列长度,短于该长度的序列将被去除,默认为20;-o:即--outdir,用于指明输出路径;

2023-12-26 10:53:53 800 2

原创 零基础小白笔记4 | 数据质控报告全解读

(2)图中每1个boxplot都是该位置的所有序列的测序质量的一个统计,上面的bar是90%分位数,下面的bar是10%分位数,箱子的中间的横线是50%分位数,箱子的上边是75%分位数,下边是25%分位数;(1)tile代表每一次测序荧光扫描的最小单位,该图主要是防止在测序过程中,某些tail受到不可控因素的影响而出现测序质量偏低的情况;(1)横轴是0-40,表示的是Q值,Q值越大,测序质量越高;(4)%GC 表示的是整体序列中的GC含量,一般是物种特异的,比如人类细胞就是42%左右;标记为差的碱基序列;

2023-12-25 22:03:10 1560 1

原创 零基础小白笔记3| 数据处理与质控

(2.1)fastq-dump 是 NCBI SRA Toolkit 中的命令,可从 NCBI Sequence Read Archive(SRA)下载原始测序数据并将其转换成 fastq 格式。--split-3: 将双端测序数据分割成两个独立的 FASTQ 文件,一个包含第一端序列,另一个包含第二端序列。--gzip: 对生成的 FASTQ 文件进行 gzip 压缩,减小文件大小。: 指定输出目录,将生成的质量控制结果文件保存在指定的目录中。: 指定输出目录,即将生成的 FASTQ 文件存放的位置。

2023-12-24 09:00:00 788

原创 零基础小白笔记2 |数据与样本信息的获取

(2.2)得到runinfo.csv格式文件后需要保留所需样本信息,删除不需要的信息:目前只探索到了一个比较“foolish”的办法:即使用vim文本编辑器进行编辑,具体用法比较简单基础,网络上很多资源,大家也可以自行查找。(2.1)esearch命令:是 NCBI(美国国家生物技术信息中心)提供的一个用于在其数据库中进行检索的命令行工具;NGO表示未生长的卵母细胞;(4.2)如果nohup命令使用效果不好,可以使用screen命令:(详细用法也可再自行学习)(1)平台信息为:(获取SRR序号时的页面)

2023-12-23 15:55:56 655 3

原创 零基础小白笔记1 | ChIP-seq原理、操作与分析流程

(4)序列对比:使用bowtie2进行mapping,也就是与参考基因组序列进行比对,得到sam文件,后使用samtools进行排序得到bam文件;(8)数据分析:对测序得到的数据进行分析,包括序列比对、峰识别、富集区域的标定等步骤,以得到蛋白质与染色质相互作用的信息,如蛋白质结合位点、染色质富集区域等。(3)然后通过测序,可获得组蛋白在染色体上的分布情况,从而确定组蛋白修饰相关的特定位点,还可以确定组蛋白修饰酶类的靶标。(2)原始数据质控:使用fastqc对原始数据进行质控,得到网页版报告(html);

2023-12-23 10:17:25 2098 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除