Chip-seq method to explore AFE dynamics during blood formation(science 2014年)(后附本人代码和研究思路,以及一些有用的gra...

《Chromatin state dynamics during blood formation》

虽然是2014年的science,但是数据非常好(小鼠全血,从HSC造血祖祖细胞,到髓系、淋系、红系的所有亚细胞

对于构建血液分化过程中的转录组选择性剪切事件是非常好的研究模型;

那么废话不多说,我们选择这个14年的science,其中有183个(Chip-seq以及ATAC-seq的数据),52个RANseq的数据。我们分别用mm10(UCSC的基因组)对比。Chip-seq和ATAC-seq用chipseq pipeline中经典的bowtie2对比,RNAseq则用经典的二代比对方法STAR;

本文的关键就在chipseq的测序方法可以给我们提供更多的promoter、enhancer、TSS区域的信息

整个基本的研究背景和蓝图:

hemocytes cells development:

 Chipseq library and seqencing:

文章一些比较founding的结果:

我们可以看到enhancer的分布是在血液细胞的不同分化时期有明显的差异分布(根据%以及ratio值):

以及观察enhancer在不同分化时期的获得以及损失量:

跟RNAseq的数据做比较:

 

(这是本人的小鼠数据所分析出来的有first exon差异同一基因的转录本,可以看到的是在exon区域rnaseq数据都非常好的reads mapping上去,同时我们的CHIPseq以及ATACseq数据在TSS区域都有一个很好的富集以及peaks的覆盖,但是promoter以及TSS区域的peaks通常都比first exon的reads位置要前移一些,更好更直观的看出了chip call peaks 与纯二代测序出来的reads的差别,和可揭示的不同深度和程度的生物学问题

那么在分析chipseq数据的时候我按照chipseq标准流程:

从下载的sra文件、fq文件(质控)、bowtie2比对、bam文件(bam-QC,check比对率)、MACS(call peaks)、CHIPseeker做peaks的可视化、或者是自己通过bioconductor上的TFBSTool去找相应的高表达的peaks以及regulatory binding sites;

用一张非常简单的chipseq pipeline的示意图来展示一下基本思路:

代码展示如下:

#####将SRA 文件转化为fastq文件

for i in $(ls SRR*)
do
/usr/bin/fasterq-dump --split-3 -O ./raw_data/  $i

done

#########对fq文件进行QC

for i in $(ls *fastq)
do
/usr/local/bin/fastqc -f fastq -o ./qc_files/ $i
done

######对fastq文件用 bowtie2 进行比对,生成bam files(注意bowtie以及bowtie2的区别,以及与STAR的使用情况的区别)

for i in $(ls *fastq)
do
/usr/bin/bowtie2 -p 6 -3 5 --local -x /reference/UCSC/mm10/bowtie2_index/mm10 -U $i | /usr/local/bin/samtools view -bS - | samtools sort - > /bam_files/$i\.bam
done

#####得到的bam文件进行sort以及index(by samtools

####再用 bamtools 对相同 cell type 进行 merge 操作

/usr/bin/bamtools merge -list CLP_bamfiles.txt -out /merged_bam_files/CLP_merged.bam

#### 对merge好的文件去PCR重复

ls *merge.bam | while read id

do

nohup samtools markdup -r $id $(basename $id ".bam").rmdup.bam

done

#####bam to bed format

ls *rmdup.bam| while read id

do

bedtools bamtobed  $id >  $id ".bed"

done

###用MACS2 对bed 文件call peak(没有control sample)

ls *.bed | while read id
do
/usr/bin/macs2 callpeak -t $id -g mm --nomodel --shift 50 --extsize 100(reads length setting) -n ${id%%.*} --outdir  ./callpeak_result/
done

######最后得到的文件就是

NAME_peaks.xls: 以表格形式存放peak信息,虽然后缀是xls,但其实能用文本编辑器打开,和bed格式类似,但是以1为基,而bed文件是以0为基.也就是说xls的坐标都要减一才是bed文件的坐标

NAME_peaks.narrowPeak:same as the format of NAME_peaks.xls, but the former is more suitable for R input

NAME_summits.bed:记录每个peak的peak summits,话句话说就是记录极值点的位置。MACS建议用该文件寻找结合位点的motif。能够直接载入UCSC browser,用其他软件分析时需要去掉第一行。

######再用bioconductor的ChIPseeker包进行下游的可视化操作:

 TSS附近区域的peak分布情况

peak的组分分类upsetplot

用有peak annotations的基因进行GO、KEGG的富集分析: 

#非常常规的操作

那么我阐述了这么多之后,本随笔的观点主要是:

1、chipseq是很好的研究first exon、promoter、enhancer、TSS、TFbinding的好数据

2、造血细胞的分化和发育是转录本水平研究的好模型

3、TSS可以比较好的分出血细胞不同时期的亚型(不管是从PCA还是cluster)(后期会着重分享我们用TSS在不同cell type中的差异使用情况来对cell聚类分析,对TSS的ratio进行分类从而归纳出合适的差异使用程度分型);

4、人类的血液细胞和小鼠的血液细胞是都可以做TSS分析的,构建出来的TSS变化模型(pattern)是可以直接做物种间的保守性分析

5、利用差异使用程度分型,找到cell specific的TSS事件,进行特定的motif富集以及注释;

4、AFE使用情况有差异的基因是可以进行基因功能富集以及基因之间调控网络的分析的;(主要是有GO、KEGG、付费的BioLayout Express3

different AFE usage gene cluster

conservation between species

MOTIF finding 

networks regulation

 

转载于:https://www.cnblogs.com/beckygogogo/p/9848661.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: ChIP-seq(Chromatin Immunoprecipitation sequencing)是一种用于研究基因组上转录因子和其他蛋白质与DNA相互作用的方法。它通过先对特定蛋白质与DNA的结合位点进行免疫沉淀,再对沉淀下来的DNA片段进行测序来确定该蛋白质结合的基因位点。 CUT(Chromatin Uptake Test)是一种用于评估基因组上DNA片段与转录因子结合位点的灵敏度和特异性的方法。它通过将转录因子和指定的DNA片段混合,再检测该片段与转录因子的结合情况,来评估该片段是否是有效的转录因子结合位点。 ### 回答2: &RUN和CUT&RUN。 ChIP-seq (染色质免疫共沉淀测序)是一种广泛应用于研究DNA与蛋白质相互作用的技术。它通过特定抗体选择性地富集感兴趣的染色质区域,然后将富集的DNA进行测序,从而揭示DNA上与特定蛋白质的结合位点。这种技术常用于研究转录因子结合位点、组蛋白修饰和表观遗传学等领域。ChIP-seq技术的发展使得我们能够全面了解基因组中与蛋白质结合相关的生物学事件。 CUT&RUN (在位关联与次世代测序)是一种近年来涌现的新技术,用于研究蛋白质-DNA相互作用。CUT&RUN利用转录因子结合的DNA线索,将固定在细胞核中蛋白质DNA复合物释放,并以线粒体在胞浆液相中的镍作为固定荧光探针依赖式的。”CLEUR-inatableCLEUR发发挥增长实际形态用聚合物精确分子一次性直到整个复习常常经历。这种华丽奇妙的结果将DNA定点修复到某些酶反应的消息。 ChIP-seq和CUT&RUN都是现代生命科学中常用的技术,用于揭示蛋白质-DNA相互作用引发的生物学进程。虽然它们基本原理不同,但这两种技术的应用领域有许多重叠之处。使用这些技术,科学家可以研究基因组中特定区域的结构和功能,从而深入理解遗传和表观遗传学机制。 ### 回答3: &Tag=biotech.chapter.peak.finding and differential binding analysis ChIP-seq(染色质免疫沉淀测序)和CUT(染色质核苷酸可及性测序)是两种在研究染色质调控方面广泛使用的测序技术。 ChIP-seq是通过免疫沉淀染色质中特定蛋白质结合的DNA片段,并使用高通量测序技术对其进行测序。这种技术可以用来研究蛋白质与特定基因座的相互作用,从而帮助我们了解基因调控的分子机制。通过ChIP-seq,我们可以鉴定蛋白质结合位点的位置,进而确定哪些区域与基因表达相关。此外,ChIP-seq还可以用于研究转录因子的结合位点、组蛋白修饰和染色质重塑等过程。 CUT是一种用于研究染色质核苷酸可及性的测序技术。通过CUT技术,可以高通量测定染色质中DNA的特定区域是否处于开放的染色质结构。开放的染色质结构通常与基因的转录活性相关。CUT可以通过抑制DNA甲基化酶或降低染色质的凝结程度来确定染色质核苷酸的可及性。CUT技术还可以用于研究染色质可及性与某些疾病和发育过程之间的关联。 总而言之,ChIP-seq和CUT是两种重要的染色质测序技术,可以帮助我们揭示染色质调控的分子机制。ChIP-seq可以鉴定蛋白质结合位点,而CUT可以测定染色质核苷酸的可及性。这些技术的应用有助于我们进一步了解基因调控、转录因子结合、染色质修饰和疾病发生等过程。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值