2013年03月_浮生终有醒

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创 perl 取出放回且子集不重复的组合情况

#!/usr/bin/env perluse warnings;use strict;die "perl $0 \ne.g. perl $0 96 100 2 > 96.txt \n" unless @ARGV eq 3;my $sample = $ARGV[0]; # 样本数目my $n = $ARGV[1]; # 取出样本的子集数目my $ex_samp = $ARGV

2013-03-30 16:25:41 1636

原创 R rgb透明度与rect画图

哥们找个图让我画，查了一番和妹子的点拨，总结了一些东西：fa<-read.table("KEYNAME.cluNum.ladder",header=FALSE)mat <- fa[,2]pdf("bar.pdf")barplot(mat,ylim=c(0,7000),width=1,space=0)axis(1,1:96,labels=fa$V1,tick=FALSE)color <

2013-03-28 17:37:27 3161

翻译 CIRCOS教程翻译 2.4——order

为染色体排序，博主认为这个不是很重要，要记那么多模式，还不累死啊！还不如老老实实地直接写全比较好，当然心有余力怎么着都行，主配置文件有变化：>>>>karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default

2013-03-27 17:58:11 1571

翻译 CIRCOS教程翻译 2.3——filtering

过滤这一节主要讲的是有时候不需要全部的染色体都出现，那么就需要过滤一部分了，其他配置见第二节，主配置文件如下：>>>>karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromoso

2013-03-27 16:44:49 1682

翻译 CIRCOS教程翻译 2.2——karyotype

karyotype核型图，一般的核型图是直线模式，circos将其转换成圆形。karyotype文件格式分两部分，第一部分为染色体的总长和标识，第二部分为每条染色体的基因区域，当然第一部分是必要的。看了一下这一节的内容发现跟第一节的内容有些不一样，看来必须重新写完整的了。#ideogram.confdefault = 0.0025r#break = 0.5r 同一染色体内部分开

2013-03-27 16:03:02 8517

翻译 CIRCOS教程翻译 2.1——helloworld（ideogram）

怎么还是helloword？？？！！！事实上，这一章讲的是ideogram的一些参数问题，大体的讲了一些参数所覆盖的情况，所以只是helloworld。本章和第一章内容差不多，先将整体基础配置文件给出，然后一节一节地添加参数画图，最后加入自己的测试文档，搞定~~~#bands.confshow_bands = yesfill_bands = ye

2013-03-27 11:04:52 1870

翻译 CIRCOS教程翻译 1.8——label

label的标签有的时候没有办法完全表现出来，这个主要还是由于空间不够造成的，只看想要的基因还是很不错的，主配置文件：karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromosomes =

2013-03-26 17:30:38 3054

翻译 CIRCOS教程翻译 1.7——heatmap

heatmap其实博主对这章有一些细节还没有完全理解，照着画倒是可以完成，但是就是心里挺不安的。。。karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromosomes = /hs[1234]

2013-03-26 15:16:01 4439

翻译 CIRCOS教程翻译 1.6——axe和background

axe和background属于坐标轴，前者是细线条，后者是宽线条- -！！！能这样翻译么- -！！！按照字面意思来讲，background是背景的意思，说那么多还不如画出来实在，例子添加了两个conf，但为了大家能看明白，将其写在主配置文件内比较容易理解，当然也可以多写个conf，使主配置文件简洁一些：karyotype = data/karyotype/karyotype.human.tx

2013-03-26 14:02:31 3103

翻译 CIRCOS教程翻译 1.5——histogram

跟上篇几乎一样，主配置文件有变化，其他无变化：karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromosomes = /hs[1234]$/chr1* = redchr2* =

2013-03-25 18:40:26 3744

翻译 CIRCOS教程翻译 1.4——links和rules

承接上一篇，只有主配置文件有变化，这次的内容为规则与链接，副内容为贝塞尔曲线：karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromosomes = /hs[1-4]$/chromos

2013-03-25 13:43:22 4780

翻译 CIRCOS教程翻译 1.3 ——染色体的变化

继续翻译，这一节是染色体的分割模式，两个次要配置文件没有变化（ticks和ideograms），主文件变化为：karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = no #不让其显示默认的24条染色体chromosomes

2013-03-25 11:26:17 3366

翻译 CIRCOS教程翻译 1.2——ticks

karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000 #默认染色体长度单位为MB>> #类似java类函数的调用> > >以上为主文件，现在看看调用里面是什么吧：show_ticks = yes #刻度尺show_ti

2013-03-20 19:19:04 4152 1

翻译 CIRCOS教程翻译 1.1——helloworld

练习一下大名鼎鼎的circos，画图风头正劲，各种CNNS引用。话说是子江兄引进国内，但是从安装到调试，从语法到逻辑，真心说比较复杂，不过看到结果的话心理面就好受点。。。这个博主不知道是算原创还是算翻译，不过由于大部分都是自己在做测试，顺便就算翻译吧。karyotype = data/karyotype/karyotype.human.txt #核型文件，包括染色体具体信息和颜色配置，

2013-03-20 15:37:04 5942

原创 R WGCNA基础（2）——层次聚类

博主认为重新写个整体的脚本比较合适，一段一段写容易混淆。层次聚类先将矩阵转置，然后求powers（阈值），根据阈值进行聚类：library(WGCNA)options(stringsAsFactors=FALSE)enableWGCNAThreads()myfile=read.table("da1.nom",sep="\t",header=TRUE)mydata=as.data.fra

2013-03-19 14:23:20 8953 4

WGCNA（Weighted Correlation Network analysis）是一个基于基因表达网络权重构建，描述基因表达的关联模式的R包。挺拗口的吧，其实简单点的话分析基因的共表达网络，就是两个样本有表达量，那么博主根据表达量可以计算相关性，但如果加入一些新的权重，比如重量、高度、应激条件等等，相当于把基因表达与条件结合起来分析两者之间的关联性或相关性，当然表达量是最关键的。由此也可以

2013-03-19 11:18:26 21782 8

原创 linux bash和vim配置

根据网上其他人的建议，符合博主生物类的风格，其实胡说的- -！# .bashrc# Source global definitionsif [ -f /etc/bashrc ]; then . /etc/bashrcfi# User specific aliases and functionsalias le="less -SN";alias l="ls -lhrt";al

2013-03-18 16:55:11 925

原创 perl数据结构的应用

最简单的数据结构的应用，把相同id的行合并，涉及引用等知识：#!/usr/bin/env perluse warnings;use strict;my %hash;open FA, $ARGV[0] || die $!;while (){ chomp; my @tmp = split; my $string = "$tmp[1]\t$tmp[2]\t$tmp[3]\t$tm

2013-03-18 16:29:16 851

原创 perl二进制,，十进制与十六进制转换

生物信息里面也有进制的转换关系，不多说，把简单的写一下：sub d2b()#2to10{ my $bin = shift; my $mod = $bin % 2; return $bin if $bin < 2; $bin = ($bin - $mod) / 2; return &d2b($bin).$mod;}sub dec2bin()#2to10{ my $dec =

2013-03-18 16:23:44 9098 2

原创 python画PCA的3D视觉图

博主在做PCA的时候，经常遇到2D图无法区分开各个条件的样本，而3D却能直观地感受到样本之间的距离与差异。使用软件是EPD中的IDLE，输入文件为3维的PCAscore结果，参考之前的PCA脚本即可，3D脚本如下：#!pythonimport sys, reimport numpy as npimport matplotlib.pyplot as pltfrom mpl_toolkit

2013-03-14 11:25:25 6153

原创 R频数分布图及箱线图

最开始画频数分布图用的是excel的数据透视表，虽然简单易行，但是画的图杂志不认可，没办法就到处请教别人R的画法。fa=read.table("fa.rrr",header=FALSE)ea=read.table("ea.rrr",header=FALSE)mat_fa=density(data.matrix(fa))#频数分布mat_ea=density(data.matrix(ea)

2013-03-14 11:10:36 6057

原创 R二项分布检验与FDR校正

二项分布是重复n次的实验，且每次实验都是独立的，只有两种结果，并且相互对立的，生活中最常见的是投硬币~~~在生物领域内也有很多符合此类分布的，如二倍体动物等位基因，来源于父本和母本的重组等。具体公式什么的博主就不写了，写个关于ASE的例子吧。# cat binom.r | R --slave --args args <- commandArgs()fa <- read.table(args

2013-03-14 10:55:25 5326

原创 python与perl的矩阵转换及多样品的PCA

之前看过前辈用python转换矩阵，但python一直没系统学过，所以从网络中学到perl的矩阵转换，两个做了一下比较：import sysfile = open(sys.argv[1], 'r')arr = []for line in file: info = line.rstrip().split() arr.append(info) tarr = [[r

2013-03-13 16:45:28 1274 1

原创样品表达量的相关性系数计算及画图

在刚开始学的时候不会用R来计算相关性系数，也不会画图，结果博主很悲催地用perl的svg进行画图，很久之前的作品：#!/usr/bin/env perluse warnings;use strict;use lib "/bin/svg_lib";use PLOT qw(Paper End Point Rect Line Text Polyline Path);die "Usage:

2013-03-13 16:26:08 3541

原创 Duplicate与PCR扩增偏向性

Duplicate是个老大难问题，但处理与否要看具体情况，比如做DNA样本的时候，一定会处理，而RNA样本选择不处理。接下来有一些解决方法，但是“但是”也会很多，接受现实吧~~~首先Duplicate出现的类型有两种，一种是由于PCR扩增的原因导致的完全一样的reads，另一种是比对到基因组上同一位置不同的reads，但由于质量问题、测序错误、比对错误、等位基因等等，被认为是Duplicate

2013-03-11 12:03:25 7178 1

原创 codingGene的结构、3`UTR的结构和测序与物理覆盖度

1. codingGene的结构codingGene一般表现出来至少是四个结构：TU，MODEL，EXON，CDS。TU不必说了，gene的转录单元；MODEL比较有意思，其实就是转录本的不同剪切方式；EXON是包含UTR部分，CDS不包含UTR。对于noncodingGene，没有CDS的说法，也没有UTR的说法，就不必细说了。 2. 3`UTR的结构3`UTR是PolyA尾

2013-03-11 10:10:42 3676

原创生物信息分析员的编程小站

先来介绍一下博主吧，09年中南民族大学生物技术专业毕业，期间的学习生活大家都懂得，没有挂科，没有女友，些许激情，些许彷徨，博主就不必赘述了。虽然在很长一段时间内做得都是无用功，但为了自己能毕业好找工作也参加了一些专业实践，跑去中科院打一打小杂实验，没有接触过信息分析。09年4月进入华大基因生产平台做质控，现在叫核酸生产平台吧，说白了就是检查要文库是否能上机测序，期间学了各种测序原理，建库方法，

2013-03-08 10:04:41 1977