
生信分析
文章平均质量分 79
生物信息常用软件,格式,流程介绍
白墨石
生物信息学博士后,从事生信软件及分析平台开发,单细胞及其多组学分析。联系方式在左栏,欢迎学习交流,咨询提问 ^.^
展开
-
从水果连连看到两条序列比对
一、序列比对 Sequence Alignment序列比对(sequence alignment),是目前生物学的基本研究方法。过程类似连连看,规则就是如果上下两行代表两条序列,如果上下一样就可以计分,我们来试一试:现在把水果换成碱基,如果可消除中间连线,我们再来看下AACGGGGTG | ||| |CATGGGATT我们已经实现了一个简单的序列比对。序列比对最终结果可以获得序列相似性比对值,然后通过统计学分析后,得到序列间的相似性与同源性,以及它们的显著性水平即可进行生物信息分析。如原创 2021-10-24 14:41:50 · 6996 阅读 · 0 评论 -
Ubuntu 服务器安装远程 Rstudio(图文详解)
文章目录一、环境二、安装三、常用操作重启关闭启动检测配置文件查看状态四、配置`rserver.conf` 配置清单`rsession.conf` 配置清单一、环境系统:Debian 10 / Ubuntu 18 / Ubuntu 20R版本:> 3.0二、安装sudo apt-get install r-basesudo apt-get install gdebi-corewget https://download2.rstudio.org/server/bionic/amd64/rst原创 2021-10-07 20:12:20 · 5461 阅读 · 0 评论 -
归一化与标准化
一、归一化对原始数据缩放到 0-1 之间,是线性变换。也叫最大最小标准化,离散标准化。区间也可以设置为其他,一般为 0 - 1。公式:X=x−minmax−min X = \frac{x-min}{max-min } X=max−minx−minmin 为数据最小值,max 为数据最大值,x 为原始数据值,X 为归一化后的值。x=X′(max−min)+min x = X^{\prime}(max-min)+min x=X′(max−min)+min特点虽然归一化可以保留原始数据中存在的关原创 2021-09-07 21:27:56 · 4721 阅读 · 0 评论 -
保姆级 IGV 基因组浏览器使用指南(图文详解)
一、软件下载http://software.broadinstitute.org/software/igv/download这里以下载 Windows 版本为例,下载带有 Java 的版本,方便安装。由于大部分数据是通过服务器跑出的结果,所以也有小伙伴有在 Linux 服务器端使用的需求。这里推荐几种方式:配合远程控制软件来使用,国产推荐 Todesk,向日葵话说目前有部分单位禁止远程软件,推荐结合 Jupyter 来使用建立 FTP 来通过 url 访问建议最好安装在固态硬盘所在分原创 2021-08-06 08:22:13 · 47615 阅读 · 1 评论 -
生信软件 | STAR(测序序列与参考序列比对)
文章目录零、介绍一、安装二、使用1、建立索引2、STAR 比对三、原理聚类、拼接和评分零、介绍STAR (Spliced Transcripts Alignment to a Reference),用于将测序的 Read 对齐到参考基因组的比对软件,常用于 RNAseq。因其具有较高的准确率,映射速度较其他比对软件高 50 多倍,因此作为 ENCODE 项目的御用 pipeline 工具。不得不提的是,它需要占用大量内存,对计算资源有较高的要求。一、安装conda install -c biocon原创 2021-07-14 22:13:35 · 24857 阅读 · 9 评论 -
单细胞分析的 Python 包 Scanpy(图文详解)
文章目录一、安装二、使用1、准备工作2、预处理过滤低质量细胞样本3、检测特异性基因4、主成分分析(Principal component analysis)5、领域图,聚类图(Neighborhood graph)6、检索标记基因7、保存数据8、番外一、安装如果没有conda 基础,参考: Conda 安装使用图文详解(2021版)pip install scanpyconda install -y -c conda-forge leidenalg二、使用1、准备工作# 载入包import原创 2021-07-14 18:00:30 · 38890 阅读 · 20 评论 -
一文读懂参考基因组和基因组注释+最全下载方法
文章目录一、什么是参考基因组和基因组注释?二、参考基因组版本命名1、常用人参考基因组对应表2、常用小鼠参考基因组对应表三、下载1、NCBI2、Ensemble3、GENCODE4、UCSC5、iGenomes四、其他参考基因组信息一、什么是参考基因组和基因组注释?先来理一理参考基因组,基因组注释文件,测试数据间的关系。自从 1990 启动的家喻户晓的人类基因组计划开始,全世界的科学家竭尽全力破译了第一个完整的人类基因组,从那时开始人类拿到了一本只有 ATCG 四个碱基书写的天书。后续人们逐步完善了基因原创 2021-06-02 22:26:12 · 67768 阅读 · 2 评论 -
最新 NCBI 上传测序数据教程 (图文详解)
1、登录或注册用户网址:https://www.ncbi.nlm.nih.gov/account/2、进入SRA网址:https://submit.ncbi.nlm.nih.gov/向下滚动,找到Sequence Read Archive (SRA)工具,点击Submit2、新建提交3、按要求填写信息4、使用ascpascp -i /mnt/h/work/aspera.openssh -QT -l100m -k1 -d /mnt/h/work/ncbi_upload/raw/ sub原创 2021-04-14 15:30:17 · 28796 阅读 · 4 评论 -
转录组自动化分析流程搭建及使用
这次分析流程搭建使用基于Nextflow 的 nf-core,该工具可以实现自动化的转录组上游分析。官网:https://nf-co.re/rnaseqGitHub:https://github.com/nf-core/rnaseq安装 nf-core rnaseq可以使用Git clone,也可以下载好解压到流程目录安装Nextflowcurl -s https://get.nextflow.io | bash检测版本是否符合nf-core使用,可以升级nextflow self-upd原创 2021-03-22 19:35:09 · 1707 阅读 · 0 评论 -
Excel 做统计学分析
数据分析插件1、进入 Excel 点击选项2、在加载项中点击转到3、打开分析工具库扩展4、选择数据标签页,点击数据分析5、选择适合数据的分析方法,这里以方差分析为例6、配置分析需要的选项在输入区域输入对应的数据,利用鼠标指针框选带有样本分组标志的数据集,比如下图这样选中标志位于第一行,用于标记分组名称α(A)是显著性水平,0.05代表95%的可信度选中输出区域,将输出结果打印在Excel中,或者可以选新建工具表组7、最后,生成对应的分析结果表里原创 2021-03-19 20:37:05 · 16186 阅读 · 2 评论 -
如何快速自学生物信息学
为了不让大家再走我之前自学生信时候踩过的坑,走过的弯路,将一些比较重要的入门书籍,网站和后续的学习渠道总结如下,供大家参考。目录统计学系统操作编程语言生物学学习渠道统计学StatQuest生物统计学视频,包含统计学基础和生信所涉及的统计学概念,作者力图用可视化并结合有意思的例子来让统计学菜鸟尽快熟悉内部原理。作者是国外的大神,所以他的教程是全英文,在YouTube上首...原创 2019-11-18 09:11:22 · 8615 阅读 · 2 评论 -
一文读懂进化树(图文详解)
一、什么是进化树系统发育进化树 (Phylogenetic tree): 一般也叫系统进化树,进化树。它可以利用树状分支图形来表示各物种或基因间的亲缘关系。建进化树的过程,用术语讲:分支系统发育分析 (Molecular phylogenetic analysis): 是用来研究物种或序列进化和系统分类的一种方法。一般研究对象是碱基序列或氨基酸序列,通过数理统计算法来计算生物间进化关系。最后,根据计算结果,可视化为系统进化树。二、进化树的构成我们模拟一个项目,使用人和鼠的各两个基因做进化树,结果如原创 2020-05-18 18:14:44 · 84128 阅读 · 2 评论 -
生物信息之多序列比对,进化树分析,保守位点分析
序列下载与整理 网址:https://www.ncbi.nlm.nih.gov/gene下载fasta格式序列输入你想查找的序列,比如Syp基因 进入基因详细信息页面 点击Genbank 如图所示可以下载到fasta格式的序列,注意这里下载的是基因或者蛋白质的全序列 假如你希望得到promoter的基因,可以在如图所示的位置输入起始位点和终止位点一般promoter的位点不确定,可以通过将起原创 2017-11-11 15:54:18 · 100160 阅读 · 32 评论 -
构建进化树常用方法:生物进化距离(NJ)、统计特征(ML)和离散特征(MP)
构建进化树常用方法:生物进化距离(NJ)、统计特征(ML)和离散特征(MP)常用方法列表 方法名 方法名 ML,Maximum likelihood 最大似然法 NJ,Neighbor-Joining 邻接法 MP,Maximum parsimony 最大简约法 ME,Minimum Evolution 最小进化法 Ba...原创 2018-08-27 16:42:40 · 52302 阅读 · 4 评论 -
新型冠状病毒的信息汇总与分析 (形态,分类,基因组,进化,变异,流行病学)
文章目录介绍冠状病毒形态分类基因组参考基因组序列蛋白质三维结构基因组流行病学分析基因组变异及进化树介绍新型冠状病毒,是一类具有包膜、基因组为线性单股正链的RNA病毒,颗粒呈圆形或椭圆形,直径约60-140nm。正链意味着病毒进入细胞后就可以直接指导蛋白质合成,而且通过RNA聚合酶生成负链来进行自我复制此次武汉发现的冠状病毒是新发现的在人类中传播的病毒株系,被WHO命名为2019新型冠...原创 2020-01-31 10:43:43 · 15468 阅读 · 2 评论 -
生信软件 | Sratools (操作SRA文件)
下载与安装下载地址 https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?cmd=show&f=software&m=software&s=software#安装-zxvf sratoolkit.2.8.2-1-ubuntu64.tar.gz使用sra转fastq$ ../biosoft/sratoolkit/sratoolkit.2.8.2-1-原创 2017-11-06 16:52:13 · 11803 阅读 · 0 评论 -
生信软件 | FastQC(质量控制,查看测序质量)
下载与安装下载地址 http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc安装unzip fastqc.zip使用修改可执行文件权限sudo chmod 755 fastqc 运行fastqc程序../biosoft/fastqc/FastQC/fastqc -t 10结果原创 2017-11-07 11:18:50 · 12646 阅读 · 0 评论 -
生信软件 | Trimmomati (质量控制,修剪低质和接头序列)
介绍Trimmomati 用于去除 Illumina平台的FASTQ序列中的Adapter,根据碱基质量值修整FASTQ序列文件支持单末端(SE),双末端(PE)测序数据支持多线程,gzip,bzip2压缩的FASTQ文件支持phred-33 和 phred-64 格式互相转化,目前多数Illumina测序数据为phred-33格式安装conda install -c trimmo...原创 2019-03-26 20:13:48 · 5921 阅读 · 1 评论 -
生信软件 | bowtie2(测序序列与参考序列比对)
1. 介绍2. 安装2.1下载2.2 解压2.3 设置环境变量3. 使用3.1 命令3.1.1 必需参数3.1.2 可选参数(常用)3.2 构建索引3.2.1 官方索引3.2.2 自建索引3.3 例子3.3.1 例子:M. musculus, UCSC mm101. 介绍Bowtie2 是将测序reads与长参考序列比对工具。适...原创 2018-04-06 15:36:52 · 63863 阅读 · 11 评论 -
生信软件 | Samtools(SAM文件处理工具)
介绍SAM(sequence Alignment/mapping) 数据格式是目前高通量测序中存放比对数据的标准格式转换 BAM 与 SAM 格式比对文件排序,建立fastq索引安装conda install -y samtools这里需要安装Conda (这是一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件依赖问题) : Conda 安装使用图文详解使用1、常用的三个步骤转换 SAM 格式为 BAM 格式samtools view -S SRR00000.sam原创 2020-10-27 16:38:34 · 4706 阅读 · 0 评论 -
生信软件 | needleall (多对多序列比对)
EMBOSS下载:http://pan.baidu.com/s/1i4SS5E1测试文件下载:http://pan.baidu.com/s/1mihF4xU1. 解压到目录2. 执行命令 ./configure 生成Makefile文件3. 执行命令make编译成执行文件4. 测试是否编译成功EMBOSS软件包下的needleall软件进入安装目录下...原创 2016-04-19 10:50:02 · 4281 阅读 · 1 评论 -
生信软件 | Blast (序列比对)
原创 2016-04-16 22:54:10 · 2558 阅读 · 1 评论 -
生信格式 | Fasta格式 图解
原创 2016-04-15 21:08:00 · 4208 阅读 · 3 评论 -
生信格式 | GAF GO注释文件详解
下载http://current.geneontology.org/products/pages/downloads.htmlGOC(Gene Ontology Consortium)提供了41种不同模型生物的GAF格式的注释信息。GAF格式介绍官网:http://geneontology.org/docs/go-annotation-file-gaf-format-2.1/GO 注释文...原创 2019-12-30 09:41:47 · 4592 阅读 · 2 评论 -
生信格式 | BedGraph(基因组浏览器绘制)
生信文件格式 | BedGraph(基因组浏览器绘制)一、特点及适用场景:后缀名.bedGraph允许以跟踪格式显示连续值的数据对于概率分数和转录组数据很有用如果bedGraph数据集非常大(超过5000万行 ),则可以使用该bedGraphToBigWig程序将其转换为bigWig格式bedGraph文件不能转换为 wig 文件。使用bigWigToWig将 bigWig 转换为bedGraph文件二、格式一共包含四列:chromA chromStartA chromEndA原创 2020-10-29 20:41:39 · 8971 阅读 · 0 评论 -
生信格式 | bigwig,bw (基因组浏览器绘制)
一、特点及适用场景:后缀名:.bw,.bigwigbigWig文件为索引二进制格式主要用于密集,连续的数据在处理大型数据集时,bigWig文件的显示性能比常规的wig文件快得多数据必须是连续的并且由大小相等的元素组成,如果数据是稀疏或包含大小不同的元素时,请使用bedGraph格式二、wig 转 bigwigBigWig文件可以使用wigToBigWig程序从wiggle(wig)格式文件转换得到1、 创建 wig 文件wig 文件转换为bigWig文件时,必须为每个数据轨迹创建一个单原创 2020-10-29 20:01:57 · 21944 阅读 · 6 评论 -
生信格式 | wig(基因组浏览器绘制)
文章目录介绍一、variableStep 格式1、特点及适用场景:2、格式:3、例子:二、fixedStep 格式1、特点及适用场景:2、格式:3、例子:三、数据值例子Wig,BigWig,BedGraph,这是几种在基因组浏览器上绘制图形的数据格式。不同的数据格式可以满足不同的显示需求,下面我们一一来看:介绍wig 文件全称叫 Wiggle Track Format, 用来绘制基因组上的图形轨迹的文件格式。wig 格式是较老的格式,用来显示密集且连续的数据,比如GC含量,概率分数,转录组数据等。原创 2020-10-29 19:41:38 · 5699 阅读 · 0 评论 -
UCSC 基因组浏览器配置详解
一、配置参数UCSC基因组浏览器:传送门1、点击配置2、进入配置页面:点击刚刚运行的文件 BedGraph Format2、轨迹配置页面Type of graph :默认以bar,条形图来显示,选择point会以点或线来显示Track height :设置图形高度,像素为单位Data view scaling (boxed in red) :如果选中 use vertical viewing range setting选项,将使用 Vertical viewing range设置原创 2020-10-29 20:43:07 · 5517 阅读 · 0 评论 -
生物信息中的Python 01 | 从零开始处理基因序列
一、 序列数据的下载在开始了解序列的处理流程时,我们先要知道序列下载网址。其中一个知名的网站就是NCBI (National Center for Biotechnology Information)美国国立生物技术信息中心。1、通过如下的网站进入 NCBI ,可以看到它包含许多的子库,其中 Gene 就是我们一般下载基因序列的库,接下来,在后面的输入框输入 oct4 并点击 Search。...原创 2019-03-13 22:07:27 · 27369 阅读 · 32 评论 -
生物信息中的Python 02 | 用biopython解析序列
上一篇文章自己造轮子实现了序列的基础操作,但是在Python的世界里,一项工作只要重复的次数多了,那么一定就会有大神来开发相应的包来解决,这个包名就是 Biopython 。接下来我们试着使用它来实现简单的序列处理。一、准备工作1、 按照上一篇下载fasta文件的步骤,可以同理得到GeneBank的数据格式2、现在我们的目录结构是这样的3、安装Biopython,这里有两种方案:3....原创 2019-03-13 22:09:45 · 14651 阅读 · 3 评论 -
生物信息中的Python 03 | 自动化操作NCBI
相信大家在上一文中下载fasta的时候还没有感觉到下载是多么复杂,但是对于分析比对多个序列文件时,这个工作量说多了都是泪。比如,老板让你比对自己测定序列与 NCBI 库中序列,并构建相应的进化树,而这个序列需要大于100条。我想你的心情不会和下载一条序列时那么平静,那么,接下来通过BioPython提供的接口来实现快速的自动化序列下载。一、Entrez 库1.1 Entrez 介绍Entr...原创 2019-03-13 22:12:15 · 6231 阅读 · 1 评论 -
生物信息中的Python 04 | 批量下载基因与文献
相信 Entrez 的强大是有目共睹的,BioPython 将它几乎所有操作都封装为方法,使我们可以更加方便的利用这个强悍工具。对于分析比对多个序列文件时的工作量说多了都是泪。比如,老板让你比对自己测定序列与 NCBI 库中序列,并构建相应的进化树,而这个序列需要大于100条。我想你的心情不会和下载一条序列时那么平静,那么,接下来通过BioPython提供的接口来实现快速的自动化序列下载。一、自...原创 2019-03-13 22:14:05 · 8868 阅读 · 3 评论 -
生物信息中的Python 05 | 从 Genbank 文件中提取 CDS 等其他特征序列
1 介绍在基因结构分析或其他生物功能分析中会时常用到 CDS 序列,以及其他诸如 mRNA 序列,misc_RNA序列等具有生物意义的序列片段。而NCBI 的基因库中已经包含有这些的信息,但是只有一部分是整理可下载的。而剩下的一部分可以通过 genbank给出的位点信息来提取,个人能力有限,这里只做抛转之用。下面以提取 CDS 为例,记录提取序列过程,其他特征序列类似。2 结构目录3 Py...原创 2018-09-20 22:36:33 · 18897 阅读 · 4 评论 -
生物信息学数据库及在线工具汇总 (更新)
文章目录核酸数据库非编码RNA数据库1.非编码小RNA数据库2.长非编码RNA数据库:3.非编码RNA家族数据库4.非编码RNA序列数据库蛋白质数据库0.蛋白质信息1.蛋白序列数据库2.蛋白质结构数据库3.蛋白组数据库4.蛋白质功能域数据库5.蛋白互作数据库代谢数据库1.代谢途径数据库2.代谢组学常用数据库3.表型数据库序列比对1.序列与数据库比对2.多序列间比对3.序列进化树分析基因分析0.基因...原创 2019-08-24 18:33:39 · 15633 阅读 · 3 评论 -
NCBI生物分类数据库(Taxonomy)
文章目录介绍查询某个物种的全部核酸序列和蛋白序列查看某个物种的其他信息(蛋白结构,基因,测序数据,相关文献等)Taxonomy 的相关数据下载**gi_taxid 标识的数据****taxcat 标识的数据**以尼安德特人(taxid:63221)为例介绍Taxonomy : NCBI公共序列数据库中所有生物的策划分类和命名法。目前包含地球上大概10%的物种。 我们现在查询到底包含有有多少物种...原创 2019-07-10 09:08:51 · 31370 阅读 · 0 评论 -
一文极速读懂 Gene Ontology (GO)数据库
一、介绍官方:基因本体(GO)知识库是有关基因功能的全球最大信息来源。 这些知识既是人类可读的,也是机器可读的,并且是生物医学研究中大规模分子生物学和遗传学实验的计算分析的基础。在读懂基因本体论(Gene Ontology)前,我们先看看什么是本体论:本体论(Ontology )是探究世界的本原或基质的哲学理论 。本体论通常处理的问题:存在哪些本质,如何将这些本质分组,在层次结构内关联以及...原创 2019-12-30 09:40:46 · 12427 阅读 · 1 评论 -
一文极速读懂 KEGG 数据库
文章目录一、介绍二、KEGG的数据库构成三、KEGG PATHWAY 数据库1. 参考通路图 (map)2. 物种特异性通路 (org)3. 直系同源物通路 (ko)4. 酶通路 (ec)5. 反应通路 (reaction)四、KEGG ORTHOLOGY(KO)数据库一、介绍在进行生物学实验或者生物信息的学习中,都会听说KEGG富集分析,而且该方法在高通量测序分析中已然成为数据分析中必不可少...原创 2019-12-09 09:23:50 · 13920 阅读 · 3 评论 -
基因组注释文件(GFF,GTF)下载的五种方法
文章目录NCBIEnsemblUCSCGeneCodeNCBINcbi 里包含现在最全的参考基因组数据,可以进入FTP站点查看:ftp://ftp.ncbi.nlm.nih.gov/genomes/这里的文件夹名为物种的拉丁名,这里以 Human(Homo_sapiens) 为例,下载方法如下:wget ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sa...原创 2019-04-17 20:16:34 · 71067 阅读 · 9 评论 -
参考基因组下载
NCBI网址:https://www.ncbi.nlm.nih.gov/genome选择Genome数据库,输入hg19,点击Search,进入Genome Resources这里有常用的资源下载,如果是参考基因组下载第一行Ensemble网址:http://asia.ensembl.org有两种进入人参考基因组的方法下拉菜单中,选择Human点击右边的Human点Do...原创 2019-11-21 19:22:33 · 6309 阅读 · 1 评论 -
KEGG 下载 Pathway 通路数据
进入KEGG物种列表,网址:https://www.kegg.jp/kegg/catalog/org_list.html这里以小鼠为例,点击Ctrl+F查找物种小鼠的拉丁名Mus musculus这里也可以用mouse来搜索,不过可以看到在kegg中含有三种鼠的信息。为了信息准确,最好使用拉丁名作为搜索条件。点击Brite hierarchy进入KEGG Orth...原创 2019-12-24 21:04:34 · 9347 阅读 · 2 评论