自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

浮生终有醒

生物信息分析员的编程小站

  • 博客(27)
  • 资源 (9)
  • 收藏
  • 关注

原创 perl 取出放回且子集不重复的组合情况

#!/usr/bin/env perluse warnings;use strict;die "perl $0 \ne.g. perl $0 96 100 2 > 96.txt \n" unless @ARGV eq 3;my $sample = $ARGV[0]; # 样本数目my $n = $ARGV[1]; # 取出样本的子集数目my $ex_samp = $ARGV

2013-03-30 16:25:41 1636

原创 R rgb透明度与rect画图

哥们找个图让我画,查了一番和妹子的点拨,总结了一些东西:fa<-read.table("KEYNAME.cluNum.ladder",header=FALSE)mat <- fa[,2]pdf("bar.pdf")barplot(mat,ylim=c(0,7000),width=1,space=0)axis(1,1:96,labels=fa$V1,tick=FALSE)color <

2013-03-28 17:37:27 3161

翻译 CIRCOS教程翻译 2.4——order

为染色体排序,博主认为这个不是很重要,要记那么多模式,还不累死啊!还不如老老实实地直接写全比较好,当然心有余力怎么着都行,主配置文件有变化:>>>>karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default

2013-03-27 17:58:11 1571

翻译 CIRCOS教程翻译 2.3——filtering

过滤这一节主要讲的是有时候不需要全部的染色体都出现,那么就需要过滤一部分了,其他配置见第二节,主配置文件如下:>>>>karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromoso

2013-03-27 16:44:49 1682

翻译 CIRCOS教程翻译 2.2——karyotype

karyotype核型图,一般的核型图是直线模式,circos将其转换成圆形。karyotype文件格式分两部分,第一部分为染色体的总长和标识,第二部分为每条染色体的基因区域,当然第一部分是必要的。看了一下这一节的内容发现跟第一节的内容有些不一样,看来必须重新写完整的了。#ideogram.confdefault = 0.0025r#break = 0.5r 同一染色体内部分开

2013-03-27 16:03:02 8517

翻译 CIRCOS教程翻译 2.1——helloworld(ideogram)

怎么还是helloword???!!!事实上,这一章讲的是ideogram的一些参数问题,大体的讲了一些参数所覆盖的情况,所以只是helloworld。本章和第一章内容差不多,先将整体基础配置文件给出,然后一节一节地添加参数画图,最后加入自己的测试文档,搞定~~~#bands.confshow_bands = yesfill_bands = ye

2013-03-27 11:04:52 1870

翻译 CIRCOS教程翻译 1.8——label

label的标签有的时候没有办法完全表现出来,这个主要还是由于空间不够造成的,只看想要的基因还是很不错的,主配置文件:karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromosomes =

2013-03-26 17:30:38 3054

翻译 CIRCOS教程翻译 1.7——heatmap

heatmap其实博主对这章有一些细节还没有完全理解,照着画倒是可以完成,但是就是心里挺不安的。。。karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromosomes = /hs[1234]

2013-03-26 15:16:01 4439

翻译 CIRCOS教程翻译 1.6——axe和background

axe和background属于坐标轴,前者是细线条,后者是宽线条- -!!!能这样翻译么- -!!!按照字面意思来讲,background是背景的意思,说那么多还不如画出来实在,例子添加了两个conf,但为了大家能看明白,将其写在主配置文件内比较容易理解,当然也可以多写个conf,使主配置文件简洁一些:karyotype = data/karyotype/karyotype.human.tx

2013-03-26 14:02:31 3103

翻译 CIRCOS教程翻译 1.5——histogram

跟上篇几乎一样,主配置文件有变化,其他无变化:karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromosomes = /hs[1234]$/chr1* = redchr2* =

2013-03-25 18:40:26 3744

翻译 CIRCOS教程翻译 1.4——links和rules

承接上一篇,只有主配置文件有变化,这次的内容为规则与链接,副内容为贝塞尔曲线:karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromosomes = /hs[1-4]$/chromos

2013-03-25 13:43:22 4780

翻译 CIRCOS教程翻译 1.3 ——染色体的变化

继续翻译,这一节是染色体的分割模式,两个次要配置文件没有变化(ticks和ideograms),主文件变化为:karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = no #不让其显示默认的24条染色体chromosomes

2013-03-25 11:26:17 3366

翻译 CIRCOS教程翻译 1.2——ticks

karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000 #默认染色体长度单位为MB>> #类似java类函数的调用> > >以上为主文件,现在看看调用里面是什么吧:show_ticks = yes #刻度尺show_ti

2013-03-20 19:19:04 4152 1

翻译 CIRCOS教程翻译 1.1——helloworld

练习一下大名鼎鼎的circos,画图风头正劲,各种CNNS引用。话说是子江兄引进国内,但是从安装到调试,从语法到逻辑,真心说比较复杂,不过看到结果的话心理面就好受点。。。这个博主不知道是算原创还是算翻译,不过由于大部分都是自己在做测试,顺便就算翻译吧。karyotype = data/karyotype/karyotype.human.txt #核型文件,包括染色体具体信息和颜色配置,

2013-03-20 15:37:04 5942

原创 R WGCNA基础(2)——层次聚类

博主认为重新写个整体的脚本比较合适,一段一段写容易混淆。层次聚类先将矩阵转置,然后求powers(阈值),根据阈值进行聚类:library(WGCNA)options(stringsAsFactors=FALSE)enableWGCNAThreads()myfile=read.table("da1.nom",sep="\t",header=TRUE)mydata=as.data.fra

2013-03-19 14:23:20 8953 4

原创 R WGCNA基础(1)——数据过滤

WGCNA(Weighted Correlation Network analysis)是一个基于基因表达网络权重构建,描述基因表达的关联模式的R包。挺拗口的吧,其实简单点的话分析基因的共表达网络,就是两个样本有表达量,那么博主根据表达量可以计算相关性,但如果加入一些新的权重,比如重量、高度、应激条件等等,相当于把基因表达与条件结合起来分析两者之间的关联性或相关性,当然表达量是最关键的。由此也可以

2013-03-19 11:18:26 21782 8

原创 linux bash和vim配置

根据网上其他人的建议,符合博主生物类的风格,其实胡说的- -!# .bashrc# Source global definitionsif [ -f /etc/bashrc ]; then . /etc/bashrcfi# User specific aliases and functionsalias le="less -SN";alias l="ls -lhrt";al

2013-03-18 16:55:11 925

原创 perl数据结构的应用

最简单的数据结构的应用,把相同id的行合并,涉及引用等知识:#!/usr/bin/env perluse warnings;use strict;my %hash;open FA, $ARGV[0] || die $!;while (){ chomp; my @tmp = split; my $string = "$tmp[1]\t$tmp[2]\t$tmp[3]\t$tm

2013-03-18 16:29:16 851

原创 perl二进制,,十进制与十六进制转换

生物信息里面也有进制的转换关系,不多说,把简单的写一下:sub d2b()#2to10{ my $bin = shift; my $mod = $bin % 2; return $bin if $bin < 2; $bin = ($bin - $mod) / 2; return &d2b($bin).$mod;}sub dec2bin()#2to10{ my $dec =

2013-03-18 16:23:44 9098 2

原创 python画PCA的3D视觉图

博主在做PCA的时候,经常遇到2D图无法区分开各个条件的样本,而3D却能直观地感受到样本之间的距离与差异。使用软件是EPD中的IDLE,输入文件为3维的PCAscore结果,参考之前的PCA脚本即可,3D脚本如下:#!pythonimport sys, reimport numpy as npimport matplotlib.pyplot as pltfrom mpl_toolkit

2013-03-14 11:25:25 6153

原创 R频数分布图及箱线图

最开始画频数分布图用的是excel的数据透视表,虽然简单易行,但是画的图杂志不认可,没办法就到处请教别人R的画法。fa=read.table("fa.rrr",header=FALSE)ea=read.table("ea.rrr",header=FALSE)mat_fa=density(data.matrix(fa))#频数分布mat_ea=density(data.matrix(ea)

2013-03-14 11:10:36 6057

原创 R二项分布检验与FDR校正

二项分布是重复n次的实验,且每次实验都是独立的,只有两种结果,并且相互对立的,生活中最常见的是投硬币~~~在生物领域内也有很多符合此类分布的,如二倍体动物等位基因,来源于父本和母本的重组等。具体公式什么的博主就不写了,写个关于ASE的例子吧。# cat binom.r | R --slave --args args <- commandArgs()fa <- read.table(args

2013-03-14 10:55:25 5326

原创 python与perl的矩阵转换及多样品的PCA

之前看过前辈用python转换矩阵,但python一直没系统学过,所以从网络中学到perl的矩阵转换,两个做了一下比较:import sysfile = open(sys.argv[1], 'r')arr = []for line in file: info = line.rstrip().split() arr.append(info) tarr = [[r

2013-03-13 16:45:28 1274 1

原创 样品表达量的相关性系数计算及画图

在刚开始学的时候不会用R来计算相关性系数,也不会画图,结果博主很悲催地用perl的svg进行画图,很久之前的作品:#!/usr/bin/env perluse warnings;use strict;use lib "/bin/svg_lib";use PLOT qw(Paper End Point Rect Line Text Polyline Path);die "Usage:

2013-03-13 16:26:08 3541

原创 Duplicate与PCR扩增偏向性

Duplicate是个老大难问题,但处理与否要看具体情况,比如做DNA样本的时候,一定会处理,而RNA样本选择不处理。接下来有一些解决方法,但是“但是”也会很多,接受现实吧~~~首先Duplicate出现的类型有两种,一种是由于PCR扩增的原因导致的完全一样的reads,另一种是比对到基因组上同一位置不同的reads,但由于质量问题、测序错误、比对错误、等位基因等等,被认为是Duplicate

2013-03-11 12:03:25 7178 1

原创 codingGene的结构、3`UTR的结构和测序与物理覆盖度

1. codingGene的结构codingGene一般表现出来至少是四个结构:TU,MODEL,EXON,CDS。TU不必说了,gene的转录单元;MODEL比较有意思,其实就是转录本的不同剪切方式;EXON是包含UTR部分,CDS不包含UTR。对于noncodingGene,没有CDS的说法,也没有UTR的说法,就不必细说了。 2. 3`UTR的结构3`UTR是PolyA尾

2013-03-11 10:10:42 3676

原创 生物信息分析员的编程小站

先来介绍一下博主吧,09年中南民族大学生物技术专业毕业,期间的学习生活大家都懂得,没有挂科,没有女友,些许激情,些许彷徨,博主就不必赘述了。虽然在很长一段时间内做得都是无用功,但为了自己能毕业好找工作也参加了一些专业实践,跑去中科院打一打小杂实验,没有接触过信息分析。09年4月进入华大基因生产平台做质控,现在叫核酸生产平台吧,说白了就是检查要文库是否能上机测序,期间学了各种测序原理,建库方法,

2013-03-08 10:04:41 1977

编译好的过滤fq

fq 过滤 编译 处理solexa的结果文件

2013-11-22

vim自动补全

vim自动补全,比较简单的一种,解压在.vim里面

2013-08-12

rna小流程化

rna seq 流程

2013-06-14

WGCNA流程包

WGCNA 聚类 网络 基于表达量权重 相关性

2013-06-09

K-means程序

K-means算法及相关程序,输出相应结果

2013-06-05

PCA3D(EPD)

PCA3D(EPD)画出3D的权重图,使用epd软件

2013-06-05

PCA 3D程序(EPD)

PCA 3D PCA 3D PCA 3D PCA 3D PCA 3D PCA 3D PCA 3D

2013-06-05

perl SVG包

perl SVG包

2013-03-19

过滤Solexa reads

过滤 Solexa reads

2013-03-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除