![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
生物信息-明天的方向
samhuairen
这个作者很懒,什么都没留下…
展开
-
用二代测序数据的reads组装一个基因序列
之前没有做过用二代测序数据的paired-end 数据组装一个基因。今天实验室有一个同学的在图位克隆的时候遇到了一个问题,发现有一个候选基因的可能性很大,从IGV浏览器中看到,这个基因在野生型材料和突变体材料之间有38个碱基的缺失。但是设计引物扩增的时候,无法扩增出来,于是想可能该38个碱基附近有很长的T-DNA序列的插入(这个突变体是EMS诱变的获得的, EMS诱变的那个材料也是一个突变体,我们怀疑是TDNA 插入的一个突变体),所以问我能否用这个区间的reads 组转出来。我觉得可以试一下。首先,我根据原创 2021-11-09 17:31:05 · 1195 阅读 · 0 评论 -
Mutmap定位拟南芥的基因
mutmap 定位基因也是基于BSA的方法,之前一篇博客BSA分析拟南芥F2代分离群体混池测序是做的突变体也野生型杂交后代中F2选择极端个体,加亲本进行测序分析的一篇流程。上篇中的数据也可以用mutmap 分析,仅仅才用野生型亲本测序的数据,和后代突变类型混池的数据即可。方法和上边的类似,也是计算每个SNP等位基因的频率。只不过这里另一个极端混池用亲本表示了,因为极端个体的标记和基因型都是趋于亲本类型的。mutmap 可以直接使用fastq 文件,一次性做出来结果,也可以用bam文件等中间文件进行。在这..原创 2020-07-16 15:09:00 · 2719 阅读 · 0 评论 -
BSA分析拟南芥F2代分离群体混池测序
1. 实验背景为了研究拟南芥对高温响应的基因,我们对拟南芥的野生型Col进行了EMS诱变,通过对诱变后的种子多代的高温筛选,我们发现了一个对高温敏感的突变体,该突变体的下胚轴的长度在高温下要比野生型显著的短。之后,将此突变体和野生型Col进行杂交,F1表现长下胚轴,F1自交,F2出现了明显的性状分离,即表现长下胚轴和短下胚轴两种类型(长:短~3:1),遗传分析表明该突变是一个隐形突变,有单基因控制。2. 实验设计及测序对F2群体中的长,短下胚轴的两种类型的材料分别取30株,然后混合提取DNA,建原创 2020-07-16 14:22:00 · 7394 阅读 · 2 评论 -
snpEff 注释拟南芥的VCF文件
1. 下载snpEff 软件,解压即可使用,使用前安装java。brew cask install java。#macos 系统,其他系统请下载安装2. 在tair 网站https://www.arabidopsis.org/download/index-auto.jsp?dir=%2Fdownload_files%2FSequences%2FTAIR10_blastsets,https://www.arabidopsis.org/download/index-auto.jsp?dir=%2Fdo原创 2020-07-16 09:40:03 · 1488 阅读 · 0 评论 -
样品间CHIPseq 信号在基因组上的分布
比较一个样品相对应input样品chip获得的蛋白在基因组上的分布信号。主要是比较这些信号相对于input数量的大小,以及在染色体上的分布。第一步: 使用deeptools bamCompare 工具按照设定的一个窗口计算每个窗口中mapping 上的reads的数目,这里可以采用一些标准化的方法比如RPKM等。 也可以不设定,直接比较chip的和input的每个窗口中的数据,默认是是不设定,然后去log2(比值)。bamCompare -b1 Col-1-27_HTA9.aligned_so..原创 2020-07-08 14:26:51 · 1227 阅读 · 0 评论 -
使用PLINK做GWAS(2)
利用PLINK对单基因控制的性状进行定位,之前一篇文章粗滤的记录了一下使用PLINK的命令,本次博客主要记录一下如何根据SNP芯片的数据制作PLINK的格式,以及分析的步骤,最后数据的可视化。首先,有的公司给的新片的数据就是一个excel表格,列表示的是样品,行表示的是基因型,基因型用ATCG构成,当然有的基因型是用数字0或者1表示的。下面我拿到的一个数据是15个样品构成的基因型,有13个样品是突变体,2个样品是野生型。 格式如下:第二步:将此基因型存成csv文件,使用R进行读取,在R中制作pl原创 2020-07-08 11:06:52 · 2270 阅读 · 0 评论 -
使用leafcutter 做可变剪切分析流程
本博客的主要目的是把本次使用Leafcutter做可变剪切的分析流程记录一下,以方便后续分析或者分享给别人。 Leafcutter的文章发表在了NG上,有感兴趣的可以看原文。#批量改文件的名字#A0-cbp20-1_L4_380380.R1.fastq.gz#A0-cbp20-1.R1.fastq.gzls *.gz | while read id; do sample_name=${id%%_*}; file_name=${id#*.}; mv $id $sample_name.$file_原创 2020-06-03 14:52:28 · 2162 阅读 · 1 评论 -
用ggsashimi做可变剪切的可视化
可变剪切的可视化软件ggsashimi用R和python来实现, python准备好数据, 利用R画图。简单好用,但也折腾了半天,现在把完成本次可视化的步骤详细的记录一下,必备以后用。1. 准备可视化的基因注释文件,基因的注释文件是gtf格式,每个文件包含了这个基因的不同类型的可变剪切,可以从整个基因组注释文件中提取出来,但需要注意的是有时候注释文件中的染色体用,1,2,3等数字代替,而bam...原创 2020-04-10 12:09:54 · 3658 阅读 · 2 评论 -
获取比对文件上一段区域内unique的reads数目,pysam实现
用pysam实现在bam 比对文件中获取某一段区间内的unique的mapping数目,代码如下:def getting_unique_mapping_in_region(bam_file, chr, start, end): import pysam sam = pysam.AlignmentFile(bam_file, 'rb') region_set =set(...翻译 2020-02-12 15:11:28 · 2592 阅读 · 1 评论 -
个人理解hisat2 mapping 结果,并计算overall alignment rate
理解hisat2软件给出的mapping的总结,这部分总结分为三个部分:第一个部分是成对的reads能够合理的mapping在基因组上,什么是合理的mapping? 成对的reads都是有方向的,有位置的,合理的mapping指的是这些reads对能够按照reads的坐标mapping到基因组的坐标上,包括mapping了仅一次,或者reads对mapping了多次,这都是合理的mapping...原创 2020-02-11 13:42:44 · 6158 阅读 · 0 评论 -
CHIP-seq 分析笔记
本周学习一下CHIP-seq。 并根据网上的教程,自己实践一下, 一方面是要为了弄清楚什么是chip-seq, 这个技术有什么用,另一个方面是想学习一下这个技术如何来实践, 本文参考的文章主要来自生信技能树,以及简书上的其他作者写的教程,由于每个人在做分析时,使用的操作系统不一样,所以网上的代码在自己的电脑上进行运行的时候经常出现问题,这需要每个人针对自己的情况进行分析和总结。 本次分析采用...原创 2019-08-09 15:04:23 · 4170 阅读 · 2 评论 -
.enc文件解压
.enc 文件是加密文件,需要密码,解压命令如下:openssl enc -aes-256-cbc -d -in fasta.gz.enc -out fasta.gz 输入密码:。。。。 之后再解压,如下:gunzip fasta.gz原创 2017-01-13 18:21:20 · 13380 阅读 · 0 评论 -
SNP芯片探针回帖基因序列
SNP Flank sequence align gene sequence根据SNP标记探针的序列来查看具体的一个基因上有多少SNP标记。采用序列回帖的方法进行查看。在R和Linux 中操作,需要安装的软件是BWA, samtools 等 步骤如下:#extract snp flank sequence to make a fasta file for BWA alignmentsetwd(原创 2016-12-12 22:06:09 · 1082 阅读 · 0 评论 -
GWAS with plink
plink 是做全基因组关联分析非常强大的软件,说明书非常的详细,及时对GWAS不是很了解的人,相信读完该说明书也能学到不少。下边是今天在植物群体中采用极端个体(分为两组)进行关联分析的一般方法。群体还有94个材料,50个是抗病的,44个是感病的,表型记录为1,0。 对该表型主要采用3中方法: (1)卡方检验 (2)卡方检验并有基因组控制 (3)logistic 回归 命令如下:plin原创 2016-03-22 21:43:05 · 5657 阅读 · 0 评论