生信工具Bioinformatics Tools
文章平均质量分 69
wangchuang2017
天下才子,中州过半
惟楚有才,于斯为盛
实事求是,知行合一
师者,所以传道,授业,解惑也
展开
-
1953年克里克和沃森发现DNA双螺旋结构
1953年克里克和沃森发现DNA双螺旋结构1953年,克里克(Francis Crick)和沃森(James D. Watson)发现DNA双螺旋结构。这一发现是分子生物学时代的开端。1962年,沃森、克里克和威尔金斯获得了诺贝尔医学及生理学奖。萨尔克(Jonas Salk)研究员研制出了小儿麻痹症(即脊髓灰质炎)疫苗。1953年,黑真(Elizabeth Lee Hazen) 和布朗(Rachel Fuller Brown)研制出第一种真菌抗生素——制霉菌素(NYSTATIN)。制霉菌素普遍用原创 2022-05-14 16:40:02 · 5039 阅读 · 0 评论 -
生物信息学简史
生物信息学简史2018-08-15, 7127 words, 26 min read前几天看到Briefings in bioinformatics发了一篇文章介绍生物信息学发展历史。个人有两个感慨,一是这样的文章也可以发表(不禁想给自己的博客投稿),二是感慨生物信息学发展之快。对整篇文章进行了粗糙的翻译整理,供大家了解。起源:1950-197020 世纪 50 年代早期,DNA 的历史地位还没有被建立,那个时候人们普遍认为蛋白质才是遗传信息的载体。直到 1952 年的噬菌体...原创 2022-03-18 19:10:57 · 4822 阅读 · 0 评论 -
Linux 之shell脚本编程
01 Linux 系统环境文件系统结构/ 虚拟目录的根目录。通常不会在这里存储文件/bin 二进制目录,存放许多用户级的GNU工具/boot 启动目录,存放启动文件/dev 设备目录,Linux在这里创建设备节点/etc 系统配置文件目录/home 主目录,Linux在这里创建用户目录/lib 库目录,存放系统和应用程序的库文件/media 媒体目录,可移动媒体设备的常用挂载点/root root用户的主目录/sbin 系统二进制目录,存放许多GNU管理员级工原创 2022-03-13 23:58:33 · 5894 阅读 · 0 评论 -
转录组数据下载
原创 2021-01-30 15:40:24 · 1715 阅读 · 0 评论 -
常用生物信息学格式介绍(fasta、fastq、gff2、gtf(gff2.5)、gff3、bed、sam、bam、vcf)
前言在各个行业都是有行业标准的,这样才能统一规范而方便后面的分析,在生物信息学领域中主要是各种大量序列数据、注释数据等,这些都是有特定的格式去表示,下面列举几种常见的格式。了解这些是进行后续生物信息学分析的必备知识,有些人虽说是在做生物信息学分析,但是到现在可能还不知道什么是GFF3格式等。fastafasta格式是最基本的表示序列信息(核苷酸或者蛋白质)的格式。http://genetics.bwh.harvard.edu/pph/FASTA.html,https://en.w...原创 2021-01-23 13:22:33 · 8995 阅读 · 0 评论 -
conda 从 0 到 1
下载miniconda官网地址:wget -c https://repo.anaconda.com/miniconda/Miniconda3 latest Linux x86_64.sh国内镜像地址:wget -c https://mirrors.bfsu.edu.cn/anaconda/miniconda/Miniconda3 latest Linux x86_64.shwget -c, --continue resume getting a...原创 2021-01-17 10:20:26 · 220 阅读 · 0 评论 -
使用Bioconda管理生信软件(以bwa为例)
1.安装conda要使用Bioconda,必须先安装conda,有两个版本可供我们选择:miniconda和anaconda。miniconda的体积较小,但是能满足正常的生物信息学使用,如果你的网速较慢或者硬盘空间较小,可以优先选择此版本。进入miniconda的下载页面,选择合适的版本进行下载和安装#下载miniconda安装包wget https://repo.continuum...原创 2019-11-15 21:00:23 · 2424 阅读 · 0 评论 -
单倍型定相软件Haplotype phasing
Haplotype phasing softwareShare:haplotype phasing software The Eagle software estimates haplotype phase either using a phased reference panel or within a genotyped cohort. Haplotype-specific association analysis was performed with Fisher’s exac...原创 2020-12-20 10:15:42 · 5069 阅读 · 1 评论 -
Linux的文件夹及文件的权限
Linux的文件夹及文件的权限使用ls -l命令可显示当前目录下所包含的文件及文件的属性和权限[username@localhost ~]$ ls -ltotal 32drwxr-xr-x. 3 username username 4096 Apr 21 10:26 Desktop 权限 属主名 属组名 文件夹名(目录名)...0 |123 |456|789d | rwx | r-x | r-x我用数字原创 2020-12-16 13:18:34 · 535 阅读 · 0 评论 -
RNA-seq测序方法
标签:磁珠rRNAseqRNA测序mRNA去除本文出自于http://www.bioinfo-scrounger.com转载请注明出处RNA-seq测序方法 在测mRNA过程中,首先要去除rRNA。以人为例,在抽提的总RNA中,95%的RNA是rRNA,2%的RNA是mRNA,剩下的则是lncRNA、microRNA、siRNA等。 rRNA整个人类当中是非常保守的,在各个组织器官中也是非常稳定的,因此这些测序结果对我们的研究是没有用处的。mRNA则是RNA中比较重...原创 2020-12-16 11:12:09 · 1886 阅读 · 0 评论 -
捋一下测序后生信分析内容及其常用软件
捋一下测序后生信分析内容及其常用软件当我们测完序拿到原始数据之后,第一件事肯定是进行rawdata进行过滤。质控过滤软件如fastqc、multiQC、trimmomatic等。得到基因组的clean reads后,无非两件事,一是denovo组装,构建参考序列;二是重测序,分析变异及后续基因表达定量、功能等下游分析。1. 基因组组装物种从头测序的黄金时代已经过去,该测完的、容易测的大多数已经测完了。一个物种的基因组组装分析结果及其所用软件往往包含以下内容:组装->注释->原创 2020-12-16 10:56:36 · 2216 阅读 · 0 评论 -
第三代测序技术的方法原理及其在生物领域的应用
第三代测序技术的方法原理及其在生物领域的应用张子敬刘燕蓉张顺进贺花李佳霄刘贤吕世杰李志明王二耀雷初朝黄永震【摘要】:在自然界中,生物DNA的碱基序列包含着生物体中绝大多数的遗传信息,破译这些碱基序列就成了探索生命奥秘的至关重要的课题。随着第二代测序技术(Next-Generation Sequencing,NGS)的发展和应用,其弊端正在显现,而第三代单分子测序技术在一定程度上可以弥补NGS技术在应用中的一些不足。本文阐述了第三代单分子测序技术的2个测...原创 2020-09-30 10:48:29 · 725 阅读 · 0 评论 -
生物信息分析中的reads是什么
由于受目前测序水平的限制,基因组测序时需要先将基因组打断成DNA片段,然后再建库测序。reads(读长)指的是测序仪单次测序所得到的碱基序列,也就是一连串的ATCGGGTA之类的,它不是基因组中的组成。不同的测序仪器,reads长度不一样。对整个基因组进行测序,就会产生成百上千万的reads。测序得到的原始图像数据经 base calling 转化为序列数据,我们称之为raw data或raw reads,结果以 fastq 文件格式存储, fastq 文件为用户得到的最原始文件,里面存储...原创 2020-09-26 17:20:22 · 42454 阅读 · 1 评论 -
在线画图
http://www.bioinformatics.com.cn/plot_basic_radar_chart_plot_052原创 2020-09-24 08:50:09 · 174 阅读 · 0 评论 -
R语言绘制雷达图的示例
雷达图及其在R中的绘制示例雷达图(radar charts)又叫蜘蛛网图。传统的雷达图被认为是一种表现多维(4维以上)数据的图表。它将多个维度的数据量映射到坐标轴上,这些坐标轴起始于同一个圆心点,通常结束于圆周边缘,将同一组的点使用线连接起来就称为了雷达图。雷达图在图形表现上通常以线、面或线面叠加的方式呈现,也可以配置数据点。如下示例,使用雷达图展示了古细菌丰度的时间动态,不同的图表示了不同的类群,雷达图的顶点为不同时间,颜色代表了不同的试验组。(来源文献:Cro...原创 2020-09-23 23:43:41 · 21500 阅读 · 0 评论 -
LDNFSGB: prediction of long non-coding rna and disease association using network feature similarity
LDNFSGB: prediction of long non-coding rna and disease association using network feature similarity and gradient boostingLDNFSGB:利用网络特征相似度和梯度增强预测长链非编码RNA和疾病相关性Background: A large number of experimental studies show that the mutation and regulation of原创 2020-09-08 18:40:06 · 215 阅读 · 0 评论 -
Performance difference of graph-based and alignment-based hybrid error correction methods for error-
Jan 17th, 2020: New Publications.Performance difference of graph-based and alignment-based hybrid error correction methods for error-prone long reads.Wang, A.,Au, K.F.Genome Biology.2020. [Manuscript]Performance difference of graph-based and alignmen..原创 2020-08-29 17:03:47 · 163 阅读 · 0 评论 -
PacBio软件总览 - 初级分析
PacBio软件总览 - 初级分析PacBio® RS Software OverviewPacBio运行的整个流程是什么?每一步都用到了什么软件?PacBio软件套件RS Remote:Design runs remotely,Can assign multiple SMRT® Cells per well with different movie timesRS Touch:Loading a Run,Monitor at the instrument or remotely,原创 2020-08-29 16:22:23 · 351 阅读 · 0 评论 -
SMAT,PacBio
SMAT,PACbioCs_mary2017-03-22 11:48:45744收藏分类专栏:BioInfo版权PacBio PacBio测序平台基于其独特的单分子实时测序技术(Single Molecule Real Time,SMRT),通过其超长读长,均一的覆盖度,高度的一致性准及确性提供无与伦比的遗传信息深度解析。该技术帮助科学家获得超越碎片化的基因组草图,得到最完整的从头组装结果,已经使许多极富挑战性的基因组学研究成为可能。Pacific Biosciences...原创 2020-08-29 16:19:31 · 210 阅读 · 0 评论 -
PacBio软件总览 - 初级分析
PacBio软件总览 - 初级分析weixin_306992352016-12-08 16:19:0040收藏版权PacBio® RS Software OverviewPacBio运行的整个流程是什么?每一步都用到了什么软件?PacBio软件套件RS Remote:Design runs remotely,Can assign multiple SMRT® Cells per well with different movie timesRS Touch:L...原创 2020-08-29 16:15:41 · 380 阅读 · 0 评论 -
Comprehensive assessment of error correction methods for high-throughput sequencing data
Comprehensive assessment of error correction methods for high-throughput sequencing dataYun Heo,Gowthami Manikandan,Anand Ramachandran,Deming ChenThe advent of DNA and RNA sequencing has revolutionized the study of genomics and molecular biology. Ne...原创 2020-08-29 16:14:04 · 118 阅读 · 0 评论 -
Comprehensive comparison of Pacific Biosciences and Oxford Nanopore Technologies and their applicati
Comprehensive comparison of Pacific Biosciences and Oxford Nanopore Technologies and their applications to transcriptome analysis综合比较太平洋生物科学和牛津纳米孔技术及其应用转录组分析Background:Given the demonstrated utility of Third Generation Sequencing [Pacific Bioscience.原创 2020-08-29 12:18:43 · 409 阅读 · 0 评论 -
PacBio Sequel概述
PacBio Sequel概述概述近年来,以PacBio测序为代表的第三代基因测序技术逐渐兴起。美国太平洋生物科学公司推出的三代测序又称作SMRT测序,即单分子实时测序,该方法基于纳米小孔的单分子读取技术,无需扩增即可快速完成序列读取。三代测序被广泛应用于基因组研究中始于2013年PacBio成功推出商业化的三代测序仪PacBio RSII。经过不断的改良和升级,PacBio公司在2015年10月推出全新升级的三代测序仪PacBio Sequel测序系统,其具有的长读长、高通量、高准确率等特点定将为原创 2020-08-11 17:57:55 · 5435 阅读 · 0 评论 -
Comparison of long-read sequencing technologies in the hybrid assembly of complex bacterial genomes
Comparison of long-read sequencing technologies in the hybrid assembly of complex bacterial genomes 复杂细菌基因组混合装配的长序列测序技术比较AbstractIllumina sequencing allows rapid, cheap and accurate whole genome bacterial analyses, but short reads (<300 bp) do n...原创 2020-06-01 08:48:17 · 308 阅读 · 0 评论 -
计算机技术的演进过程
原创 2020-04-21 23:43:13 · 667 阅读 · 0 评论 -
NGS的测序仪和相关技术时间轴 NGS相关数据库和项目时间轴
NGS的测序仪和相关技术时间轴NGS相关数据库和项目时间轴:原创 2020-04-21 22:59:35 · 582 阅读 · 0 评论 -
单分子测序技术取得重要突破
单分子测序技术取得重要突破 由Oxford Nanopore 和Pacific Biosciences 公司开发的新的DNA 测序技术可以直接读取DNA 单分子序列,并能更清晰地观察到基因组组织结构及其遗传内容,但是,这种单分子测序技术错误率较高——易将DNA 链的核苷酸碱基A、T、G 或C 读错,错误率高达15%。但这种情况将很快有...原创 2019-12-17 18:28:51 · 545 阅读 · 0 评论 -
python入门题
1. Counting DNA Nucleotides 碱基记数#1. 计算序列中各碱基数目#!/usr/bin/env python3nts = {c:0 for c in 'ATGC'}with open('./test.txt','r') as f: for a in f: a = a.upper() for nt in a.rstrip(): n...原创 2019-12-16 15:19:45 · 652 阅读 · 0 评论 -
数据格式
FastQC是一款基于Java的软件,一般都是在linux环境下使用命令行运行,它可以快速多线程地对测序数据进行质量评估(Quality Control)zcat tmp.fq.gz | head -10000 >tmp.fq : 查看该压缩文件取前10000行 导入到tmp.fq文件。cat tmp.fq | paste ---- | cut -f 2 | cut -c 1 | sor...原创 2019-12-14 11:25:27 · 356 阅读 · 0 评论 -
Corrigendum: A window into third generation sequencing
Corrigendum: A window into third generation sequencing勘误表:第三代测序的窗口抽象第一代和第二代测序技术引领了基因组学领域及其他领域的革命,激发了惊人的科学进步,包括使人们能够更完整地理解整个基因组序列及其编码信息,以及对基因组的更完整表征。甲基化组和转录组,并更好地理解蛋白质和DNA之间的相互作用。然而,目前,测序技术的应用和基因...原创 2019-12-13 14:51:58 · 715 阅读 · 0 评论 -
how Lordec maps the long reads to DeBruijn Graph
一 。how Lordec maps the long reads to DeBruijn Graphhello,I would like how LorDEC maps long reads to debruijn graph. After construction of deBruijn graph of short reads ,how map the set of erroneo...原创 2019-12-12 16:57:35 · 131 阅读 · 0 评论 -
RACER: Rapid and accurate correction of errors in reads 快速、准确地修正读数中的错误
抽象动机:高-产量未来-新一代测序技术使基因组和转录组的日益快捷,实惠测序,具有广阔的应用范围。测序数据的质量对于所有应用都至关重要。产生的数据中很大一部分包含错误,因此需要更有效的错误纠正程序。结果:我们提出了RACER(读取错误的快速,准确校正),这是一种用于校正测序数据错误的新软件程序。RACER比现有程序具有更好的纠错性能,速度更快,所需的内存更少。为了支持我们的主张,我们在各种真...原创 2019-12-12 11:24:48 · 600 阅读 · 0 评论 -
Biopython-Chapter3.生物序列对象
序列和字母表Bio.Alphabet.IUPAC提供Protein、DNA和RNA的基本定义扩展:Protein——IUPAC.protein基本类;IUPAC.extended_protein常见氨基酸类DNA——IUPAC.unambiguous_dna基本字母;IUPAC.ambiguous_dna歧义字母;IUPAC.extended_dna修饰后的碱基RNA——IUPAC.u...原创 2019-12-10 22:27:21 · 637 阅读 · 0 评论 -
Biopython 分析序列
数据下载https://www.ncbi.nlm.nih.gov/nuccore/NC_000006.12?report=genbank&from=31164337&to=31170682&strand=true1 读取常见的序列文件格式(fasta,gb)2 浏览 fasta 序列文件内容from Bio import SeqIO# 读取包含单...转载 2019-12-09 22:09:18 · 1604 阅读 · 0 评论 -
序列和序列对象
序列和序列对象Seq 类Seq类是Biopython最基础的一类, 储存序列信息. from Bio.Seq import Seq. 该类基本格式是Seq(self, data, alphabet=Alphabet()). 类似于字符串, 能够储存蛋白, DNA, RNA序列信息. 该类是不可变的. 该类和str类似, 支持count, find, split, strip.相比str...原创 2019-12-09 22:44:22 · 1544 阅读 · 0 评论 -
A Benchmark Study on Error Assessment and Quality Control of CCS Reads Derived from the PacBio RS
A Benchmark Study on Error Assessment and Quality Control of CCS Reads Derived from the PacBio RSPacBio RS, a newly emerging third-generation DNA sequencing platform, is based on a real-time, single...原创 2019-12-09 17:16:16 · 195 阅读 · 0 评论 -
python for bioinformatics相关题目
题目完整版来自:http://rosalind.info/problems/list-view/;学习的网友脚本来自生信技能树:http://www.biotrainee.com/forum-59-1.html。每个题可能有多种解法,不同解法用分别用## 1/2/3表示,通常## 1 是我自己脚本,而其他解法是参考其他网友的脚本。如果你也同我一样刚用python处理生信数据的话,请务必先自...原创 2019-12-09 11:21:03 · 908 阅读 · 0 评论 -
PacBio vs. Oxford Nanopore sequencing
PacBio vs. Oxford NanoporesequencingPacBio与牛津纳米孔测序发表于2017年6月16日通过Bhagyashree Birla由太平洋生物科学公司和牛津纳米孔公司开发的长读测序技术克服了研究人员短读所面临的许多限制。读可改善从头组装,转录组分析(基因同工型鉴定),并在宏基因组学领域发挥重要作用。当组装包括大片段重复区域的基因组时,较长的读段也...原创 2019-12-08 23:12:15 · 2403 阅读 · 0 评论 -
复杂基因组测序技术研究进展
基因组是所有生命遗传物质的集合,为生命行使生物学功能提供指导,基因组中的碱基序列信息记录着生命进化的历史。因而,基因组序列的完整解析可极大促进基因功能研究,更为物种相互作用和基因组比较等生命科学研究提供基础信息。大多数生物的基因组均由A、T、G、C 4种碱基组成,其组合顺序和总长度各不相同,如何快速和低成本地获取基因组序列一直是基因组学领域的重心目前常用于基因组组装的两种算法DBG (De b...原创 2019-12-08 23:07:03 · 424 阅读 · 0 评论 -
Random Walk(随机游走)
金融和经济模型和概率统计学难以分离,对于这样的随机二级市场数据的理解和操作也是计算机科学的一个领域,十分有魅力的计算金融学。普通数据挖掘方法大多都是确定性模型,对于输入的输出往往没有随机性,而一些能给出概率的随机性模型似乎更加的适用,如蒙特卡洛模拟,即模拟输入一堆的随机数进行评估。几何布朗运动(Brownian motion)布朗运动是将看起来连成一片的液体,在高倍显微镜下看其实是由许许...转载 2019-12-07 21:39:05 · 1569 阅读 · 0 评论