bioinformatics
SHMILYRINGPULL
这个作者很懒,什么都没留下…
展开
-
IGV web 工具部署
现在使用的查看bam文件的方式主要还是需要把bam文件下载到本地,导致下载花费时间较长,偶然间看到igv.js版本,可以把igv部署在web端访问,网上的资料有限,现总结如下,希望可以帮到有同样需求的人。下载安装###下载git文件git clone git@github.com:igvteam/igv-webapp.git####下载之后就是一个文件夹cd ./igv-webappnpm installnpm run build###上面这两步需要先安装npm才能用,而且非常容易通不原创 2020-09-01 11:15:35 · 2061 阅读 · 0 评论 -
SAM BAM 和 CRAM
处理NGS数据的生信人员每天都会接触各种数据格式,什么sam、bam、vcf、gvcf等,大家对sam和bam都听得比较多,可能对cram不熟悉,此篇博文梳理下三个以‘AM’ 结尾的文件,不会具体说明三个文件的具体格式,因为已经有很多博文讲到了,可自行百度google。 SAM sam(Sequence Alignment Mapping) 序列比对映射,纯文本格式,所以直接用more命令或者其他查看文本的命令可以打开,基本格式就是下图这样 BAM BAM文件是SAM文件的二进制格原创 2020-07-06 16:56:22 · 2442 阅读 · 0 评论 -
系统进化树构建及数据分析的简介
本文引用地址:http://blog.sciencenet.cn/blog-344534-352797.html 1.涉及基本概念例如,“分子进化与生物进化是不是一个概念”,“关于微卫星进化模型有没有什么新的进展”以及“关于Kruglyak的模型有没有改进的出现”,等等。2.关于构建进化树的方法的选择例如,“用boostrap NJ得到XX图,请问该怎样理解?能否应用于文章?用转载 2013-05-23 15:31:10 · 23034 阅读 · 2 评论 -
一个关于RNA-Seq分析方法的投票
原文在这儿Q1. What do you prefer to align your reads to?Most respondents align to the genome only (47.3%) , and this is closely followed by those who align to both genome and transcriptome (39.8%). Key转载 2013-01-25 14:27:17 · 2336 阅读 · 0 评论 -
一个生物信息在线Manual网站
这是一个很不错的Manuals网站,主要针对生物信息学的研究人员,里面包括R、Bioconductor、NGS、EMBOSS、Linux等软件和系统的使用教程。如:R Basics ManualBioConductor ManualNGS Analysis with R/BioconductorNGS Analysis with Galaxy and IGV转载 2012-12-31 10:57:31 · 2317 阅读 · 0 评论 -
转录组分析工具tophat之完全手册
转载自:第20121105期集结号-转录组分析工具tophat之完全手册TopHat是将RNA-Seq数据允许gap的回贴回参考基因组上!是转录组分析的必备工具之一!此帖的内容涵盖了tophat的介绍,安装、使用、异常处理等,是tophat使用的完全手册!1,介绍转录组数据分析之tophat篇 http://seq.cn/1650-79TopHa转载 2012-12-30 17:23:09 · 14397 阅读 · 0 评论 -
假设性检验
决策与风险(统计推断与检验)/*读书笔记,白话统计系列,力图用普通话讲述统计学的基本概念。这里的题目是“决策与风险”,讲的就是两类错误(type I and type II errors)。以下改编至维恩堡《数理统计初级教程》(常学将等译,太原:山西人民出版社,1986),英文名叫Statistics: An Intuitive Approach By George H转载 2012-12-13 10:07:55 · 4796 阅读 · 0 评论 -
python 字典和列表的读取速度问题
最近在进行基因组数据处理的时候,需要读取较大数据(2.7G)存入字典中,然后对被处理数据进行字典key值的匹配,在被处理文件中每次读取一行进行处理后查找是否在字典的keys中,以下两段代码的效率差别非常大:第一段:if(pos in fre_dist.keys()):newvalue= fre_dist[pos]第二段:if(pos in fre_dist):new原创 2017-04-21 09:50:07 · 11666 阅读 · 2 评论 -
MutSigCV in cancer genome
最近研究突变数据的分析,可以用到软件MutSigCV(http://www.broadinstitute.org/cancer/cga/),根据博文Application of MutSigCV in cancer genome research中的描客述进行安装,有几点需要注意,1. Installation of MCRMatlabDownload appropriate vers原创 2014-12-05 13:55:48 · 8523 阅读 · 1 评论 -
转录组数据饱和度评估方法
转自:http://www.biodiscover.com/group/topic/655.html基因表达分析里面,RNA-seq是现在转录组研究常用的技术了,但是通过二代测序获得数据后,在正式分析前我们通常需要做两件事情:其一是reads的饱和度分析,另一个是RNA-seq测序的数据与mRNA真实表达水平之间的一致性。另外,本来大家还讨论了关于基因组组装、宏基因组测序、以及非编码R转载 2014-12-01 10:25:09 · 12129 阅读 · 1 评论 -
NGS数据的质量评估和reads的处理
转自:http://www.hzaumycology.com/chenlianfu_blog/?p=14561. 基因组测序和转录测序的NGS数据处理策略从测序公司拿到数据后,首先需要对数据进行预处理,主要分两步走:1.1 QC(reads的质量控制)Quality Control,即过滤低质量reads,低质量的reads有如下几种:含有Primer/Adap转载 2013-07-02 15:08:14 · 27619 阅读 · 0 评论 -
Clustalx 多重序列比对图解教程(By Raindy)
软件简介: CLUSTALX-是CLUSTAL多重序列比对程序的Windows版本。Clustal X为进行多重序列和轮廓比对和分析结果提供一个整体的环境。 序列将显示屏幕的窗口中。采用多色彩的模式可以在比对中加亮保守区的特征。窗口上面的下拉菜单可让你选择传统多重比对和轮廓比对需要的所有选项。 主要功能: 你可以剪切、粘贴序列以更改比对的顺序; 你可以选择序列子集转载 2013-06-01 15:05:17 · 38361 阅读 · 3 评论 -
测序技术
第一代测序技术-Sanger末端终止法用双脱氧核苷酸作为链终止试剂(双脱氧核苷酸在脱氧核糖上没有聚合酶延伸链所需要的3-OH基团,所以可被用作链终止试剂)通过聚合酶的引物延伸产生一系列大小不同的分子后再进行分离的方法。测序引物与单链DNA模板分子结合后,DNA聚合酶用dNTP延伸引物。延伸反应分四组(如下图)进行,每一组分别用四种ddNTP(双脱氧核苷酸)中的一种来进行终止,再用P原创 2012-09-22 13:50:38 · 4409 阅读 · 0 评论 -
Fastq格式详解
FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。格式说明FASTQ文件中每个序列通常有四行:序列标识以及相关的描述信息,以‘@’开头;第二行是序列第三行以‘+’开头,后面是序列标示符、描述信息,或转载 2012-09-20 16:14:09 · 25642 阅读 · 0 评论 -
RPKM简介
RNA-seq是透过次世代定序的技术来侦测基因表现量的方法,在衡量基因表现量时,若是单纯以map到的read数来计算基因的表现量,在统计上是一件相当不合理事,因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表现量较高,而错估基因真正的表现量,所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表现量。RPKM是转载 2012-10-10 11:30:05 · 3127 阅读 · 0 评论 -
串行的blast+2.2.25本地化: blastdbcmd,makeblastdb,blastn.简介
串行的blast+2.2.25本地化系列: blastdbcmd,makeblastdb,blastn.使用简介----------------------------------------------------------------------- blast+中有许多命令.blastdbcmd,makeblastdb是处理数据库较为常用的命令blastn是核苷酸与核苷酸转载 2012-07-23 14:09:35 · 6641 阅读 · 0 评论 -
核酸序列分析
核酸序列分析核酸序列分析1、核酸序列检索可通过NCBI使用Entrez系统进行检索,也可用EBI的SRS 服务器进行检索。在同时检索多条序列时,可通过罗逻辑关系式按照GenBank接受号进行批量检索。如用“AF113671 [ac] OR AF113672 [ac]”可同时检索这两条序列。其中“[ac]”是序列接受号的描述字段。2、核酸序列的基本分析(1)分子质量、碱基组成转载 2012-04-12 19:16:10 · 5385 阅读 · 0 评论 -
蛋白质组学
蛋白质组学蛋白质是生物体的重要组成部分,参与几乎所有生理和细胞代谢过程。此外,与基因组学和转录组学比较,对一个细胞或组织中表达的所有蛋白质,及其修饰和相互作用的大规模研究称为蛋白质组学。蛋白质组学通常被认为是在基因组学和转录组学之后,生物系统研究的下一步。然而,蛋白质组的研究远比基因组学复杂,这是由于蛋白质内在的复杂特点,如蛋白质各种各样的翻译后修饰所决定的。并且,研究基因组学的技术要比研转载 2012-03-11 18:36:37 · 12034 阅读 · 0 评论 -
生物信息学常用软件—2(PCR引物设计及相关软件使用)
lPCR引物设计及相关软件使用主要内容 v1、背景 v2、PCR引物设计原则 v3、常用PCR引物设计软件 v4、Primer Premier 5.0 介绍 v5、Oligo 6.44介绍 v6、在线Primer3 介绍 l1、背景——什么是PCR? 聚合酶链反应(Polymerase Chain Reaction ,PCR)是80年代中期发展起转载 2012-03-11 16:59:42 · 7970 阅读 · 0 评论 -
生物信息学软件-1
生物信息学资料1,常用软件,酶切位点分析2010-04-02 8:27一、生物信息学软件简介(一)分类 •单机分析软件,如:winplas•在线分析软件, 如:webcutter•生物学数据库,如:NCBI, DDBJ, EBI(二)意义 1.分析和处理实验数据和公共数据,加快研究进度,缩短科研时间。2.提示、指导、替代实验操作,利用对实验数据的转载 2012-03-11 16:48:52 · 10376 阅读 · 2 评论 -
FASTA序列格式说明
fasta序列格式是blast组织数据的基本格式,无论是数据库还是查询序列,大多数情况都使用fasta序列格式,所以首先对fasta格式在做详细说明。 下面是一个来源于NCBI的fasta格式序列:>gi|187608668|ref|NM_001043364.2| Bombyx mori moricin (Mor), mRNAAAACCGCGCAGTTATTTAAAATATGAATAT原创 2011-12-26 10:04:40 · 8887 阅读 · 2 评论 -
RNA-seq 流程、问题总结(一)
这是2012 年的3月份的一篇nature protocol ,下面是我作为一个RNA-seq 方面的菜鸟在根据这个protocol 跑流程时遇到的问题及解决的方法,现总结如下:一、果蝇全基因组下载Fruit fly iGenome packages (Ensembl build; download via the TopHat and Cufflinks websites, along原创 2012-10-31 09:44:28 · 13755 阅读 · 2 评论 -
高通量测序领域常用名词解释大全
什么是高通量测序?高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析转载 2012-11-01 11:11:39 · 8192 阅读 · 0 评论 -
GO分析相关工具汇总
GO委员会工具AmiGO [http://amigo.geneontology.org/cgi-bin/amigo/go.cgi]AmiGO 提供检索和浏览GO委员会提供的本体学(ontology)和注释(annotation)数据。用户可以通过检索蛋白获得相应的GO术语,可以检索GO术语得到相应的细节和相关的蛋白注释,AmiGO还提供了BLAST搜索引擎,比对有GO术语注释的基因和基因产转载 2012-11-10 12:18:11 · 9776 阅读 · 0 评论 -
[转载]转录组测序分析中cufflinks的使用及问题
在转录组高通量测序数据分析过程中,主要就是转录本的构建(拼接)及表达水平的衡量,其次还包括可变剪接之类的转录后修饰等研究分析。因此,做过RNA-seq转录组测序数据分析的童鞋们一定使用过或至少听说过Cufflinks这个软件。Cufflinks是加利福尼亚大学伯克利分校数学和计算机生物实验室,由LiorPachter领导的StevenSalzberg’s团队,和马里兰大学生物信息和转载 2012-11-01 15:00:27 · 16035 阅读 · 0 评论 -
SwissProt/UniProt tag 标识
CodeMeaningDescriptionIDIdentificationContains identifying information and characteristics of the sequenceACAccession number(s)Release-to-release stable identifiers原创 2011-06-20 19:39:00 · 1484 阅读 · 0 评论