自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (1)
  • 收藏
  • 关注

原创 plot Kmeans heatmap for genes

【代码】plot Kmeans heatmap for genes。

2024-01-02 18:01:46 371

原创 flat a nested list in R

【代码】flat a nested list in R。

2024-01-02 10:43:22 374

原创 使用EMMAX做GWAS分析

本博客记录本人在使用改软件的一些步骤。群体结构控制的文件可以采用STRUCTURE或者ADMIXTURE,PCA软件的输出值,值得注意的是,在用STRUCTURE和ADMIXTURE软件输出的文件中,协变量的要减少最后一个变量,比如STRUCTURE分析后,得到群体的亚群个数是3,那么每个样品对会对应3个相应的系数,以此来表示这个个体属于这三个假定的祖先亚群的概率;EMMAX输出的文件有三个,分别是一个日志文件,一个关联结果的p值文件(.ps 后缀)和一个包含似然值文件,里边包含样品的遗传力。

2023-07-28 11:19:55 1207

原创 新的计划及开始

自从那天以后,我每天都坚持一小时以上,有时候是专业的书,有时候是其他的书,有文学的,有科普的,也有英语的。看了几天的wordpress, 但越来越觉得这个也没什么意思,我的初衷是整理自己学习和工作中的一些代码和知识,做个网站也是往上边写东西,在csdn的博客上也是写这些,何不在这里继续写呢?想到这里,我觉得csdn还是一个很好的平台,在写代码的时候,有很方便的插入代码的区块,在写文章的时候,有很方便的写文章的模版,只是以前的时候,自己太懒了,没有一直更新,没有坚持。想到这里,我觉得还是在这里比较好。

2023-07-18 17:24:40 66

原创 用二代测序数据的reads组装一个基因序列

之前没有做过用二代测序数据的paired-end 数据组装一个基因。今天实验室有一个同学的在图位克隆的时候遇到了一个问题,发现有一个候选基因的可能性很大,从IGV浏览器中看到,这个基因在野生型材料和突变体材料之间有38个碱基的缺失。但是设计引物扩增的时候,无法扩增出来,于是想可能该38个碱基附近有很长的T-DNA序列的插入(这个突变体是EMS诱变的获得的, EMS诱变的那个材料也是一个突变体,我们怀疑是TDNA 插入的一个突变体),所以问我能否用这个区间的reads 组转出来。我觉得可以试一下。首先,我根据

2021-11-09 17:31:05 1214

原创 QTL定位原理学习

一直在学习QTL,数量遗传学,看了很多书,文献,但自己一直是模模糊糊,总觉得只知道其一,不知道其二,今天看王健康老师写的基因定位与育种设计,让我又有了一种从头学习一边的冲动,我大体看了我认为比较重要的两章,写了一个自学的提纲,希望能够填充满这个内容。提纲如下:欢迎有共同爱好者填写其中的内容。标记和图谱构建如何构建图谱 构建图谱用什么方法 如何用R实现F2群体单标记的t检验什么是t检验 什么是t分别 什么是正态分布 如何计算加性和显性效应,如何检测 说‘人话’的例子 R语言代码实现..

2020-11-26 16:52:39 3586 3

原创 Mutmap定位拟南芥的基因

mutmap 定位基因也是基于BSA的方法,之前一篇博客BSA分析拟南芥F2代分离群体混池测序是做的突变体也野生型杂交后代中F2选择极端个体,加亲本进行测序分析的一篇流程。上篇中的数据也可以用mutmap 分析,仅仅才用野生型亲本测序的数据,和后代突变类型混池的数据即可。方法和上边的类似,也是计算每个SNP等位基因的频率。只不过这里另一个极端混池用亲本表示了,因为极端个体的标记和基因型都是趋于亲本类型的。mutmap 可以直接使用fastq 文件,一次性做出来结果,也可以用bam文件等中间文件进行。在这..

2020-07-16 15:09:00 2731

原创 BSA分析拟南芥F2代分离群体混池测序

1. 实验背景为了研究拟南芥对高温响应的基因,我们对拟南芥的野生型Col进行了EMS诱变,通过对诱变后的种子多代的高温筛选,我们发现了一个对高温敏感的突变体,该突变体的下胚轴的长度在高温下要比野生型显著的短。之后,将此突变体和野生型Col进行杂交,F1表现长下胚轴,F1自交,F2出现了明显的性状分离,即表现长下胚轴和短下胚轴两种类型(长:短~3:1),遗传分析表明该突变是一个隐形突变,有单基因控制。2. 实验设计及测序对F2群体中的长,短下胚轴的两种类型的材料分别取30株,然后混合提取DNA,建

2020-07-16 14:22:00 7470 2

原创 snpEff 注释拟南芥的VCF文件

1. 下载snpEff 软件,解压即可使用,使用前安装java。brew cask install java。#macos 系统,其他系统请下载安装2. 在tair 网站https://www.arabidopsis.org/download/index-auto.jsp?dir=%2Fdownload_files%2FSequences%2FTAIR10_blastsets,https://www.arabidopsis.org/download/index-auto.jsp?dir=%2Fdo

2020-07-16 09:40:03 1496

原创 样品间CHIPseq 信号在基因组上的分布

比较一个样品相对应input样品chip获得的蛋白在基因组上的分布信号。主要是比较这些信号相对于input数量的大小,以及在染色体上的分布。第一步: 使用deeptools bamCompare 工具按照设定的一个窗口计算每个窗口中mapping 上的reads的数目,这里可以采用一些标准化的方法比如RPKM等。 也可以不设定,直接比较chip的和input的每个窗口中的数据,默认是是不设定,然后去log2(比值)。bamCompare -b1 Col-1-27_HTA9.aligned_so..

2020-07-08 14:26:51 1234

原创 使用PLINK做GWAS(2)

利用PLINK对单基因控制的性状进行定位,之前一篇文章粗滤的记录了一下使用PLINK的命令,本次博客主要记录一下如何根据SNP芯片的数据制作PLINK的格式,以及分析的步骤,最后数据的可视化。首先,有的公司给的新片的数据就是一个excel表格,列表示的是样品,行表示的是基因型,基因型用ATCG构成,当然有的基因型是用数字0或者1表示的。下面我拿到的一个数据是15个样品构成的基因型,有13个样品是突变体,2个样品是野生型。 格式如下:第二步:将此基因型存成csv文件,使用R进行读取,在R中制作pl

2020-07-08 11:06:52 2284

原创 R 中标准化两列数据差异较大的数据

实验室的师弟给了两个材料,36个基因表达的数据,其中一个材料的所有基因表达的量都比另一个材料所有基因的表达量要高,而且在这36个基因中,有几个基因表达量在两个材料中都远大于其他基因。 如何有差别的做出这两列基因数据的heatmap呢? 如果采用传统的pheatmap包中的pheatmap函数,在对行进行标准化的时候,发现每个材料中的基因表达量都是相同的,表达量高的那个材料全是红色,表达量低的那个材料全是蓝色。 达不到区分不同的基因表达有差异的效果。 因此,采用以下标准化的方法,可以有效的展示材料之间的差异,

2020-07-04 16:54:30 1450

原创 使用leafcutter 做可变剪切分析流程

本博客的主要目的是把本次使用Leafcutter做可变剪切的分析流程记录一下,以方便后续分析或者分享给别人。 Leafcutter的文章发表在了NG上,有感兴趣的可以看原文。#批量改文件的名字#A0-cbp20-1_L4_380380.R1.fastq.gz#A0-cbp20-1.R1.fastq.gzls *.gz | while read id; do sample_name=${id%%_*}; file_name=${id#*.}; mv $id $sample_name.$file_

2020-06-03 14:52:28 2177 1

原创 用ggsashimi做可变剪切的可视化

可变剪切的可视化软件ggsashimi用R和python来实现, python准备好数据, 利用R画图。简单好用,但也折腾了半天,现在把完成本次可视化的步骤详细的记录一下,必备以后用。1. 准备可视化的基因注释文件,基因的注释文件是gtf格式,每个文件包含了这个基因的不同类型的可变剪切,可以从整个基因组注释文件中提取出来,但需要注意的是有时候注释文件中的染色体用,1,2,3等数字代替,而bam...

2020-04-10 12:09:54 3706 2

翻译 获取比对文件上一段区域内unique的reads数目,pysam实现

用pysam实现在bam 比对文件中获取某一段区间内的unique的mapping数目,代码如下:def getting_unique_mapping_in_region(bam_file, chr, start, end): import pysam sam = pysam.AlignmentFile(bam_file, 'rb') region_set =set(...

2020-02-12 15:11:28 2602 1

原创 个人理解hisat2 mapping 结果,并计算overall alignment rate

理解hisat2软件给出的mapping的总结,这部分总结分为三个部分:第一个部分是成对的reads能够合理的mapping在基因组上,什么是合理的mapping? 成对的reads都是有方向的,有位置的,合理的mapping指的是这些reads对能够按照reads的坐标mapping到基因组的坐标上,包括mapping了仅一次,或者reads对mapping了多次,这都是合理的mapping...

2020-02-11 13:42:44 6214

原创 文件中存在相同的行,读取这些行,并添加到字典当中的python代码

有时候文件中有某一列的数据存在相同的行,在读取文件的时候,把这些相同的行的的唯一标示作为字典的键,其他的行添加为字典的值,如下所示:a 11 23a 12 22b 12 33b 23 87c 23 88我们期待得到的数据是:results = {'a' : [[11,12],[23,22]], ...

2020-02-11 11:17:08 230 1

原创 Linux上查看home目录使用空间大小

在Linux系统里查看home目录使用的存储空间的多少,使用以下命令:du -sh /public-supool/home/jianglab # /public-supool/home/jianglab is my home dictory in a linux cluuster server查看软连接的文件夹的使用情况du -sh ~/DSS/ |sort -nr...

2019-10-15 16:26:23 13826

原创 CHIP-seq 分析笔记

本周学习一下CHIP-seq。 并根据网上的教程,自己实践一下, 一方面是要为了弄清楚什么是chip-seq, 这个技术有什么用,另一个方面是想学习一下这个技术如何来实践, 本文参考的文章主要来自生信技能树,以及简书上的其他作者写的教程,由于每个人在做分析时,使用的操作系统不一样,所以网上的代码在自己的电脑上进行运行的时候经常出现问题,这需要每个人针对自己的情况进行分析和总结。 本次分析采用...

2019-08-09 15:04:23 4201 2

原创 TOSHIBA移动硬盘挂载Macos系统的方法

macos系统下如果插入TOSHIBA的移动硬盘,在终端中无法复制或者创建目录,表明你没有相应的读写的权利,可以通过重新手动挂载实现。 具体的步骤如下:1. 插入移动硬盘。2.mount | grep ntfs3. 找到Device Node /dev/disk1 on / (ntfs,...)4. sudo umount /dev/disk1 ##卸载挂载,可能需要root ...

2019-03-20 16:59:54 8104 2

原创 利用群体遗传数据估计基因组上重组率

计算所用软件:FastEPRR准备工作: 1. 准备输入文件,phased genotype file with VCF format 2. 如何实现 phased genotype file? 假如我们手中的是unphased的 vcf 文件或者hapmap 或者plink 软件格式。 首先准备VCF 格式,可以采用Mega2软件或者TASSEL 进行转化,我的文件是plink 的格

2017-04-21 21:24:11 10261 3

翻译 phased 基因型或者unphased 基因型的理解

SNP芯片标记测到的是一对同源染色体上的两个碱基,比如,一个SNP标记在一个个体当中的的结果是AA,在另一个个体当中的结果是TT, 若两个SNP标记在同一条染色体上后,如果这个两个位点都是杂合的,一个是AT,另一个是AG,这个时候就有两种可能,要么AA是在同一个同源染色单体上(AA是一种单倍型,haplotype),要么AG(单倍型)是在同一个同源染色单体上,如果我们知道这个信息,那么这个基因型就

2017-04-19 18:53:28 5190

原创 .enc文件解压

.enc 文件是加密文件,需要密码,解压命令如下:openssl enc -aes-256-cbc -d -in fasta.gz.enc -out fasta.gz 输入密码:。。。。 之后再解压,如下:gunzip fasta.gz

2017-01-13 18:21:20 13862

原创 Rstudio 中创建一个R包,并且把包push到github

假设已经安装好Rstudio并且安装了git 开发工具,且有github账户。 如果没有github,以及没有链接本地和远程仓库的,请看这篇博文: git SSH key 生成步骤 在Rstudio中创建一个R的包如下程序: 1)在Rstudio中打开new project》 new dictionary 》Rpackage ,给包起个名:myGWAS 如下图所示: 2)编辑DESC

2016-12-23 20:43:07 5124

原创 Python install ggplot in Rodeo

在Python中安装ggplot的步骤,尤其是在Rodeo中安装时的步骤:1, 因为已经安装了anaconda2, 但是没有改变环境变量,所以系统老提示找不到conda 安装命令,于是先要设置 环境变量:我的系统是mac 的,设置如下:PATH=“/Users/zhanghuairen/anaconda2/bin:$PATH"2 , 要用conda安装pip, 这个很重要, conda

2016-12-12 22:08:47 2558

原创 SNP芯片探针回帖基因序列

SNP Flank sequence align gene sequence根据SNP标记探针的序列来查看具体的一个基因上有多少SNP标记。采用序列回帖的方法进行查看。在R和Linux 中操作,需要安装的软件是BWA, samtools 等 步骤如下:#extract snp flank sequence to make a fasta file for BWA alignmentsetwd(

2016-12-12 22:06:09 1086

翻译 centos6.5 安装和卸载R

在centos6.5上采用非编译的方式安装R的步骤:su -c 'rpm -Uvh http://download.fedoraproject.org/pub/epel/6/i386/epel-release-6-8.noarch.rpm' sudo yum update sudo yum install R卸载的方法:yum list installed | grep RR.x86_64

2016-05-06 20:22:13 7037

翻译 Centos6.5 卸载和安装Java

刚装系统的时候选择了所有的软件,安装的Java是1.7版本的,由于软件的需要,必须要安装新的Java版本,因此需要卸载以前的,并安装现在的1.8.具体的步骤如下:yum list installed |grep java#根据列出来的Java信息,删除旧版本的Java信息yum remove java-1.7#下载新版本的Java,有可能根据以下的wget的方法不行,我是在Windows上下载

2016-05-06 20:08:47 2419

原创 matplotlib 画图

在python下边学习机器学习的时候,发现很多图都是基于matplotlib来组的,而且作图很好看,于是今天学习一下matplotlib如何在python下实现。 matplotlib 是python画图的一个非常完美的模块,可以结合Numpy,Scipy等模块处理很强大的数据。在使用之前,最好安装Numpy,Scipy. 安装matplotlib,在Ubutu下安装很简单:sudo apt-g

2016-03-25 21:36:07 497

原创 GWAS with plink

plink 是做全基因组关联分析非常强大的软件,说明书非常的详细,及时对GWAS不是很了解的人,相信读完该说明书也能学到不少。下边是今天在植物群体中采用极端个体(分为两组)进行关联分析的一般方法。群体还有94个材料,50个是抗病的,44个是感病的,表型记录为1,0。 对该表型主要采用3中方法: (1)卡方检验 (2)卡方检验并有基因组控制 (3)logistic 回归 命令如下:plin

2016-03-22 21:43:05 5660

翻译 机器学习实战python与R共舞

机器学习实战中的代码,学习并交流。第一个是kNN分类函数。以下是Python的代码,后来也尝试用R写了一下,发现他们在处理数据上R还是很强大的。#!/usr/bin/pythonfrom numpy import *import operatordef classfy0(inX,dataSet,labels,k): dataSetSize=dataSet.shape[0] # shap

2016-03-19 22:19:01 919

转载 欢迎使用CSDN-markdown编辑器

今天在学习python的GUI 编程, 需要PyQt4, 在Ubuntu系统下安装, 我自己首先先安装,结果捣鼓了半天没有安装上,上网看到有人安装的方法,借鉴了一下,把这个方法现在总结在这里,方便以后使用。 1.安装SIP从 http://www.riverbankcomputing.co.uk/software/sip/download 下载压缩包解压sudo python configure.

2015-05-01 20:37:40 385

原创 关联分析LD计算的问题

说道关联分析,就要谈到连锁不平衡,连锁不平衡的衰减。 那么什么就是LD的衰减呢, 简单的说就是群体在经历了几百年或是更多年的历史重组之后在基因组上形成的重组块(block). 这些block 紧密的排列在基因组染色体的位置上。 有的地方block 比较大, 有的地方block比较小。 这个大小的意思就是延伸的长还是短。平均的延伸的长度决定了我们定位基因的精度。 延伸的越短,定位的精度越高。 延伸的

2015-01-25 21:27:16 12406

原创 R 绘制高密度散点图

当数据点重叠很严重时候, 用三点

2014-08-27 10:39:27 8863

原创 田间试验统计的几个概念

田间试验设计的原则中第一个就是重复,重复的意思就是shi

2014-08-20 19:51:43 2447

原创 R 分析裂区试验设计

裂区试验有主区部分和副区部分, 因而有主区部分误差(误差 a,简记为Ea )和副区部分误差(误差b,简记为Eb) 分别用于测验主区处理以及副区处理和主、副互作的显著性。对同一个二因素试验资料作自由度和平方和的分解,则可发现随机区组的误差项自由度和平方和分别为DFe、SSe,而裂区设计有两个误差项,其自由度和平方和分别为DFEa,DFEb, SSEa, SSEb。而区组,处理效应等各个变异项目的自由

2014-08-19 21:30:40 8063

原创 Linux 命令ls -l 已经更改权限的命令

几个Linux 常用的命令ls -l

2014-08-18 21:02:30 699

原创 UbutuKylin 中./bashrc坏了的解决办法

今天在UbutuKylin 14.04中

2014-08-17 17:44:01 938

原创 人生在这里开始

一直以来想把自己的东西整理一下, 也一直的没有勇气写一个博客。渐渐的我觉得自己人生有些模糊。 写个博客就是想要把自己学到的或是自己看到的记载下来,然后慢慢的消化。我是一个半路“出家”的人, 以前把太多的时间放到了田间, 后来渐渐的自己喜欢上生物信息这个行业了,觉得有很多的东西要钻。 所以就慢慢的倒腾了很多有关生物信息的东西。 这个专业嘛, 就是一个大杂烩。 怎么说呢, 就是把利用我们所学的生物

2014-08-17 17:38:34 455

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除