- 博客(27)
- 资源 (9)
- 收藏
- 关注
原创 perl 取出放回且子集不重复的组合情况
#!/usr/bin/env perluse warnings;use strict;die "perl $0 \ne.g. perl $0 96 100 2 > 96.txt \n" unless @ARGV eq 3;my $sample = $ARGV[0]; # 样本数目my $n = $ARGV[1]; # 取出样本的子集数目my $ex_samp = $ARGV
2013-03-30 16:25:41 1636
原创 R rgb透明度与rect画图
哥们找个图让我画,查了一番和妹子的点拨,总结了一些东西:fa<-read.table("KEYNAME.cluNum.ladder",header=FALSE)mat <- fa[,2]pdf("bar.pdf")barplot(mat,ylim=c(0,7000),width=1,space=0)axis(1,1:96,labels=fa$V1,tick=FALSE)color <
2013-03-28 17:37:27 3161
翻译 CIRCOS教程翻译 2.4——order
为染色体排序,博主认为这个不是很重要,要记那么多模式,还不累死啊!还不如老老实实地直接写全比较好,当然心有余力怎么着都行,主配置文件有变化:>>>>karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default
2013-03-27 17:58:11 1571
翻译 CIRCOS教程翻译 2.3——filtering
过滤这一节主要讲的是有时候不需要全部的染色体都出现,那么就需要过滤一部分了,其他配置见第二节,主配置文件如下:>>>>karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromoso
2013-03-27 16:44:49 1682
翻译 CIRCOS教程翻译 2.2——karyotype
karyotype核型图,一般的核型图是直线模式,circos将其转换成圆形。karyotype文件格式分两部分,第一部分为染色体的总长和标识,第二部分为每条染色体的基因区域,当然第一部分是必要的。看了一下这一节的内容发现跟第一节的内容有些不一样,看来必须重新写完整的了。#ideogram.confdefault = 0.0025r#break = 0.5r 同一染色体内部分开
2013-03-27 16:03:02 8517
翻译 CIRCOS教程翻译 2.1——helloworld(ideogram)
怎么还是helloword???!!!事实上,这一章讲的是ideogram的一些参数问题,大体的讲了一些参数所覆盖的情况,所以只是helloworld。本章和第一章内容差不多,先将整体基础配置文件给出,然后一节一节地添加参数画图,最后加入自己的测试文档,搞定~~~#bands.confshow_bands = yesfill_bands = ye
2013-03-27 11:04:52 1870
翻译 CIRCOS教程翻译 1.8——label
label的标签有的时候没有办法完全表现出来,这个主要还是由于空间不够造成的,只看想要的基因还是很不错的,主配置文件:karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromosomes =
2013-03-26 17:30:38 3054
翻译 CIRCOS教程翻译 1.7——heatmap
heatmap其实博主对这章有一些细节还没有完全理解,照着画倒是可以完成,但是就是心里挺不安的。。。karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromosomes = /hs[1234]
2013-03-26 15:16:01 4439
翻译 CIRCOS教程翻译 1.6——axe和background
axe和background属于坐标轴,前者是细线条,后者是宽线条- -!!!能这样翻译么- -!!!按照字面意思来讲,background是背景的意思,说那么多还不如画出来实在,例子添加了两个conf,但为了大家能看明白,将其写在主配置文件内比较容易理解,当然也可以多写个conf,使主配置文件简洁一些:karyotype = data/karyotype/karyotype.human.tx
2013-03-26 14:02:31 3103
翻译 CIRCOS教程翻译 1.5——histogram
跟上篇几乎一样,主配置文件有变化,其他无变化:karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromosomes = /hs[1234]$/chr1* = redchr2* =
2013-03-25 18:40:26 3744
翻译 CIRCOS教程翻译 1.4——links和rules
承接上一篇,只有主配置文件有变化,这次的内容为规则与链接,副内容为贝塞尔曲线:karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = nochromosomes = /hs[1-4]$/chromos
2013-03-25 13:43:22 4780
翻译 CIRCOS教程翻译 1.3 ——染色体的变化
继续翻译,这一节是染色体的分割模式,两个次要配置文件没有变化(ticks和ideograms),主文件变化为:karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000chromosomes_display_default = no #不让其显示默认的24条染色体chromosomes
2013-03-25 11:26:17 3366
翻译 CIRCOS教程翻译 1.2——ticks
karyotype = data/karyotype/karyotype.human.txtchromosomes_units = 1000000 #默认染色体长度单位为MB>> #类似java类函数的调用> > >以上为主文件,现在看看调用里面是什么吧:show_ticks = yes #刻度尺show_ti
2013-03-20 19:19:04 4152 1
翻译 CIRCOS教程翻译 1.1——helloworld
练习一下大名鼎鼎的circos,画图风头正劲,各种CNNS引用。话说是子江兄引进国内,但是从安装到调试,从语法到逻辑,真心说比较复杂,不过看到结果的话心理面就好受点。。。这个博主不知道是算原创还是算翻译,不过由于大部分都是自己在做测试,顺便就算翻译吧。karyotype = data/karyotype/karyotype.human.txt #核型文件,包括染色体具体信息和颜色配置,
2013-03-20 15:37:04 5942
原创 R WGCNA基础(2)——层次聚类
博主认为重新写个整体的脚本比较合适,一段一段写容易混淆。层次聚类先将矩阵转置,然后求powers(阈值),根据阈值进行聚类:library(WGCNA)options(stringsAsFactors=FALSE)enableWGCNAThreads()myfile=read.table("da1.nom",sep="\t",header=TRUE)mydata=as.data.fra
2013-03-19 14:23:20 8953 4
原创 R WGCNA基础(1)——数据过滤
WGCNA(Weighted Correlation Network analysis)是一个基于基因表达网络权重构建,描述基因表达的关联模式的R包。挺拗口的吧,其实简单点的话分析基因的共表达网络,就是两个样本有表达量,那么博主根据表达量可以计算相关性,但如果加入一些新的权重,比如重量、高度、应激条件等等,相当于把基因表达与条件结合起来分析两者之间的关联性或相关性,当然表达量是最关键的。由此也可以
2013-03-19 11:18:26 21782 8
原创 linux bash和vim配置
根据网上其他人的建议,符合博主生物类的风格,其实胡说的- -!# .bashrc# Source global definitionsif [ -f /etc/bashrc ]; then . /etc/bashrcfi# User specific aliases and functionsalias le="less -SN";alias l="ls -lhrt";al
2013-03-18 16:55:11 925
原创 perl数据结构的应用
最简单的数据结构的应用,把相同id的行合并,涉及引用等知识:#!/usr/bin/env perluse warnings;use strict;my %hash;open FA, $ARGV[0] || die $!;while (){ chomp; my @tmp = split; my $string = "$tmp[1]\t$tmp[2]\t$tmp[3]\t$tm
2013-03-18 16:29:16 851
原创 perl二进制,,十进制与十六进制转换
生物信息里面也有进制的转换关系,不多说,把简单的写一下:sub d2b()#2to10{ my $bin = shift; my $mod = $bin % 2; return $bin if $bin < 2; $bin = ($bin - $mod) / 2; return &d2b($bin).$mod;}sub dec2bin()#2to10{ my $dec =
2013-03-18 16:23:44 9098 2
原创 python画PCA的3D视觉图
博主在做PCA的时候,经常遇到2D图无法区分开各个条件的样本,而3D却能直观地感受到样本之间的距离与差异。使用软件是EPD中的IDLE,输入文件为3维的PCAscore结果,参考之前的PCA脚本即可,3D脚本如下:#!pythonimport sys, reimport numpy as npimport matplotlib.pyplot as pltfrom mpl_toolkit
2013-03-14 11:25:25 6153
原创 R频数分布图及箱线图
最开始画频数分布图用的是excel的数据透视表,虽然简单易行,但是画的图杂志不认可,没办法就到处请教别人R的画法。fa=read.table("fa.rrr",header=FALSE)ea=read.table("ea.rrr",header=FALSE)mat_fa=density(data.matrix(fa))#频数分布mat_ea=density(data.matrix(ea)
2013-03-14 11:10:36 6057
原创 R二项分布检验与FDR校正
二项分布是重复n次的实验,且每次实验都是独立的,只有两种结果,并且相互对立的,生活中最常见的是投硬币~~~在生物领域内也有很多符合此类分布的,如二倍体动物等位基因,来源于父本和母本的重组等。具体公式什么的博主就不写了,写个关于ASE的例子吧。# cat binom.r | R --slave --args args <- commandArgs()fa <- read.table(args
2013-03-14 10:55:25 5326
原创 python与perl的矩阵转换及多样品的PCA
之前看过前辈用python转换矩阵,但python一直没系统学过,所以从网络中学到perl的矩阵转换,两个做了一下比较:import sysfile = open(sys.argv[1], 'r')arr = []for line in file: info = line.rstrip().split() arr.append(info) tarr = [[r
2013-03-13 16:45:28 1274 1
原创 样品表达量的相关性系数计算及画图
在刚开始学的时候不会用R来计算相关性系数,也不会画图,结果博主很悲催地用perl的svg进行画图,很久之前的作品:#!/usr/bin/env perluse warnings;use strict;use lib "/bin/svg_lib";use PLOT qw(Paper End Point Rect Line Text Polyline Path);die "Usage:
2013-03-13 16:26:08 3541
原创 Duplicate与PCR扩增偏向性
Duplicate是个老大难问题,但处理与否要看具体情况,比如做DNA样本的时候,一定会处理,而RNA样本选择不处理。接下来有一些解决方法,但是“但是”也会很多,接受现实吧~~~首先Duplicate出现的类型有两种,一种是由于PCR扩增的原因导致的完全一样的reads,另一种是比对到基因组上同一位置不同的reads,但由于质量问题、测序错误、比对错误、等位基因等等,被认为是Duplicate
2013-03-11 12:03:25 7178 1
原创 codingGene的结构、3`UTR的结构和测序与物理覆盖度
1. codingGene的结构codingGene一般表现出来至少是四个结构:TU,MODEL,EXON,CDS。TU不必说了,gene的转录单元;MODEL比较有意思,其实就是转录本的不同剪切方式;EXON是包含UTR部分,CDS不包含UTR。对于noncodingGene,没有CDS的说法,也没有UTR的说法,就不必细说了。 2. 3`UTR的结构3`UTR是PolyA尾
2013-03-11 10:10:42 3676
原创 生物信息分析员的编程小站
先来介绍一下博主吧,09年中南民族大学生物技术专业毕业,期间的学习生活大家都懂得,没有挂科,没有女友,些许激情,些许彷徨,博主就不必赘述了。虽然在很长一段时间内做得都是无用功,但为了自己能毕业好找工作也参加了一些专业实践,跑去中科院打一打小杂实验,没有接触过信息分析。09年4月进入华大基因生产平台做质控,现在叫核酸生产平台吧,说白了就是检查要文库是否能上机测序,期间学了各种测序原理,建库方法,
2013-03-08 10:04:41 1977
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人