2019年09月_wangchuang2017

12月 11月 10月 09月 08月 06月 05月 04月 03月 02月 01月

转载序列多重比对工具：MUSCLE

MuscleMUSCLE是RC Edgar开发的序列多重比对（Multiple Sequence Alignment，MSA）工具下载和相关说明地址为http://www.drive5.com/muscle/manual/1、比对并保存比对结果为Fasta格式文件muscle -in seqs.fa -out seqs.afa对于大数据集可以使用...

2019-09-30 20:45:30 8292

原创弱类型、强类型、动态类型、静态类型语言的区别是什么？

无类型：汇编弱类型、静态类型： C/C++弱类型、动态类型检查： Perl/PHP强类型、静态类型检查：Java/C#强类型、动态类型检查：Python, Scheme静态显式类型：Java/C静态隐式类型：Ocaml, Haskell强类型：偏向于不容忍隐式类型转换。譬如说haskell的int就不能变成double弱类型：偏向于容忍隐式类型转换。譬如说C语...

2019-09-30 20:28:00 245

原创致命错误： zlib.h：没有那个文件或目录

致命错误： zlib.h：没有那个文件或目录下面这个错误是因为zlib包没有安装，安装后问题即可解决。但有一点请注意安装命令是：sudo apt-get installzlib1g-dev，而非sudo apt-get installzlib./file_util.cpp:19:18: 致命错误： zlib.h：没有那个文件或目录编译中断。...

2019-09-29 22:15:43 5365 1

原创三代数据组装软件canu

三代拼接工具canu。canu这款软件来自于经典的 Celera Assembler。celera最早用于人类全基因组计划，后来随着二代测序数据的普及，这种基于overlap的方法逐渐被基于kmer的方法取代，但是虽则三代测序的流行，这些工具又焕发了新的生命。如果没听过Celera的大名，刚快bing一下“Celera Genomics”。应用场景1、手里有三代pacbio测序的数据，fa...

2019-09-29 20:01:50 2376

原创二代数据模拟软件wgsim

一、功能分类：测序数据模拟二、软件官网：https://github.com/lh3/wgsim三、软件介绍:wgsim是一块用于高通量数据模拟的软件，whole genome simulation。这款软件可以模拟出illumina测序数据，并且可以自由调整测序reads的读长，插入片段大小以及错误率等，使用起来比较方便。模拟数据主要用于软件的测试与评估。例如对序列拼接软件的...

2019-09-29 20:00:31 2492

转载经典：基因组测序数据从头拼接或组装算法的原理

基因组测序数据的拼接/组装（图片来源：google）每一个物种的参考基因组序列（reference genome）的产生都要先通过测序的方法，获得基因组的测序读段（reads），然后再进行从头拼接或组装（英文名称为do novo genome assembly），最后还原测序物种的各条染色体的序列，即ATGC四种碱基的排列顺序。之所以要进行基因组拼接，是因为现在的测序技术还只能测较短...

2019-09-28 14:35:24 11418

原创一种基于三代PacBio测序数据的补洞方法

一种基于三代PacBio测序数据的补洞方法技术领域本发明涉及生物信息技术领域,具体涉及DNA组装的补洞方法，它使用三代PacBio 测序数据来进行基因组数据的补洞。背景技术三代PacBio测序以长读长著称，目前测序使用的P6-C4试剂，可使测序数据的平均读长达到10-15k，并且测序没有明显的GC偏向性，理论上能很好地对基因组进行补洞。目前基于三代PacBio测序数据补洞的软件...

2019-09-28 14:28:35 2476

转载 Git的使用---版本控制

创建版本库什么是版本库？版本库又名仓库，英文名repository,你可以简单的理解一个目录，这个目录里面的所有文件都可以被Git管理起来，每个文件的修改，删除，Git都能跟踪，以便任何时刻都可以追踪历史，或者在将来某个时刻还可以将文件”还原”。所以创建一个版本库也非常简单，如下我是D盘 –> www下目录下新建一个testgit版本库。pwd 命令是用于...

2019-09-27 18:51:21 102

原创 Git的使用

在文件夹F:\Git 鼠标右键 Git Bash Here1.执行git init之后你去查看Git目录里面发现里面多了这样一个东西。这是一个隐藏文件夹，有点电脑看不见，是因为文件夹选项设置的隐藏文件不可见，这个去控制面板里的文件夹选择设置一下就好了。下面我们接着来操作，试着开始写我们的项目。...

2019-09-27 18:37:41 85

转载纠错工具之 - Proovread

BioInf-Wuerzburg/proovread- Github主要是来解读 proovread 发表的文章，搞清楚它内在的原理。Proovread，这个工具绝对没有你想的那么简单，它引入了很多局部模型，而且在总体设计上也是很有眼光的。原文：proovread: large-scale high-accuracy PacBio correction through it...

2019-09-27 17:13:30 340

原创三代测序数据纠错的方法、装置和计算机可读存储介质与流程

三代测序数据纠错的方法、装置和计算机可读存储介质与流程文档序号：15616049发布日期：2018-10-09 21:24导航：X技术>最新专利>计算;推算;计数设备的制造及其应用技术本发明涉及生物信息技术领域，具体涉及三代测序数据纠错的方法、装置和计算机可读存储介质。背景技术：以Pacbio为代表的第三代测序平台，其测序读长(reads)长(平均10～15k)...

2019-09-27 16:15:19 667

原创高通量测序技术和序列拼接算法探析

　　摘要：　高通量测序 (High-throughput Sequencing, HTS) 技术是继第一代测序技术之后发展起来的一种新型测序方式, 又被称为下一代测序技术。与第一代测序技术中采用基于Sanger方法的自动、半自动毛细管测序方法不同, 高通量测序技术采用了基于焦磷酸测序的并行测序技术, 是对传统测序技术的一项重要技术突破, 它不仅克服了第一代测序技术高成本、低通量、低速度的缺...

2019-09-27 16:12:19 2748

原创新一代测序技术Sparc

原文为《Sparc：asparsitybasedconsensusalgorithmforlongerroneoussequencingreads》，鉴于PeerJ期刊2016年6月8日（影响因子为2.183，投稿命中率为52.22%，在各类SCI期刊中属于比较普通的水平）摘要：Sparc软件通过高效的线性复杂度一致性算法，将目标基因组区域的序列构建k聚体图，帮助基...

2019-09-27 16:03:38 1636

原创简述一代、二代、三代测序技术在应用上的区别

简述一代、二代、三代测序技术在应用上的区别生信信息转录组重测序测序一代、二代还是三代测序，我到底应选哪个？看完您就知道了。测序技术的出现，让人类第一次能够直接探索生物体的本质差异，放到整个科学史上也是极其重要的事件！现如今，成本越来越低，测序已经走进了寻常生物实验室，成为了一种基础技术。但很多人还是分不清各种测序技术的区别和应用场景，甚至会误以为越新越好...

2019-09-27 14:18:16 38912

原创 Pacbio 数据相关的几个重要概念

Pacbio 数据相关的几个重要概念pacbio 基本概念Polymerase Read， Subreads，Circular Consensus Sequence 的概念和相互关系Pacbio 的测序原理与二代的边合成边测序原理有很大的不同。其在建库上就有很大的差别。二代的测序文库是线性的，而三代的测序文库是环装的。环装的文库，有很多的好处：1. 环装结构，使得测序能...

2019-09-27 14:14:54 6199

原创三代测序纠错软件汇总篇

三代测序纠错软件汇总篇原创：李海滨诺禾科服2017-12-21在之前推出的一篇微信中，已经介绍过了三代测序下机数据“三代全长转录组测序常见问题说明”。那么我们拿到数据后是如何通过不同的软件、流程来处理，从而得到我们想要的高质量数据呢？随着三代测序技术的发展，各种利用 PacBio 长序列来做大型基因组的 de novo 组装和改进以及在数据纠错方面的软件如雨后春笋般层出不穷，今天就和...

2019-09-27 09:28:26 4331 3

转载一种PacBio测序数据组装得到的基因组序列的纠错方法技术 (专利技术)

一种PacBio测序数据组装得到的基因组序列的纠错方法技术技术编号：17008244阅读：83留言：0更新日期：2018-01-11 04:20本发明专利技术提供一种PacBio测序数据组装后序列的纠错方法，它包括以下步骤：步骤一：使用比对软件将Illumina测序数据比对到PacBio测序数据组装得到的基因组序列上；步骤二：提取可能存在错误的位置和对应位置的碱基类型信息；步骤...

2019-09-26 21:20:37 512

原创基于 PacBio 测序数据的纠错算法评测与剪切位点识别研究

基于 PacBio 测序数据的纠错算法评测与剪切位点识别研究摘要高通量测序技术的产生和发展催生了许多大规模基因测序项目，如国际千人基因组计划、英国 UK10K 计划以及中国的百万人群基因组测序计划等等。这些项目已经或计划对成百上千万个个体进行基因测序，使得测序序列数据量呈指数增长。基因测序为研究人类的遗传信息，解释基因功能、各种疾病的关联以及分析人类疾病的发病机理提供了详...

2019-09-26 20:50:59 659

转载 PacBio sequence error correction amd assemble via pacBioToCA

Illumina二代测序有个致命缺陷，说到底还是基于PCR扩增的,所以存在偏向性和对于高GC含量区无法扩增等系统误差，测序错误是不可避免的，其次就是测序长度短；但其价格便宜，通量非常高，准确性达99%，综合性价比也受到青睐。短序列的reads在做基因组装的时候，遇到大的重复片段就会很吃力。 10X Genomics 2015年备受瞩目的测序黑马：10X Genomics，是常...

2019-09-26 20:49:42 362

原创四代 DNA 测序技术简述*

姚亭秀（北京市第八十中学北京 100102）摘要 DNA 测序技术是现代分子生物学研究中最常用的技术，极大推动了生物学的发展。从 20 世纪 70 年代至今，DNA 测序技术已历经 4 代。简介被称为 DNA 测序始祖的第 1 代测序技术、边合成边测序的第 2 代测序技术、不依赖于 PCR 扩增的第 3 代测序技术，以及处于研发中的第 4 代测序技术。关键词第 1 代...

2019-09-26 19:51:03 3027

原创第三代DNA测序及其相关生物信息学技术发展概况

第三代DNA测序及其相关生物信息学技术发展概况杨悦杜欣军梁彬郭季冬程晓真王硕摘要：本文介绍了第三代DNA测序的技术原理及应用现状,并对相关的生物信息学技术进行了综述。第三代测序技术以单分子测序为主要特点,目前已广泛应用于食品科学及生命科学研究的各个领域,其代表有Heliscope Bio Science公司的SMS技术、【题　名】第三代DNA测序及其相关生物信...

2019-09-26 19:45:19 1054

原创一种PacBio测序数据组装得到的基因组序列的纠错方法

技术领域本发明涉及生物信息技术领域,更具体的说，它涉及一种PacBio测序数据组装得到的基因组序列的纠错方法。背景技术PacBio是一家测序仪公司，提供第三代测序技术测序平台，他们的测序仪产生的数据，在业内叫PacBio数据或PacBio测序数据；Illumina是一家美国的测序仪公司，提供第二代测序技术测序平台，他们的测序仪产生的数据，在业内叫Illumina 数据或Illumi...

2019-09-26 19:35:33 1183

原创 Boost--Graph

图论是一种数学抽象,它对于解决多种计算机科学问题是非常有用的, Boost.Graph提供了一个基于图论的通用编程接口. Boost.Graph是一个图的封装，在《数据结构》的教科书里，一般都会讲到数组、链表、队列、堆栈、堆、树、图论等。其中前面几个已经在C++标准库（STL）中实现了（如vector,list,stack,queue,heap等），却没有提供一个与树或图...

2019-09-26 18:25:45 457 1

原创 Accurate self-correction of errors inlong reads using de Bruijn graphs LoRMA使用de Bruijn图对长read中的错误

Accurate self-correction of errors inlong reads using de Bruijn graphs LoRMA使用de Bruijn图对长read中的错误进行精确的自校正LoRMA:通过逐步增加k-mer大小，LoRMA从超过指定频率阈值的长读数据中迭代构造使用k-mers的DBGs，并运行LoRDEC根据相应的DBGs...

2019-09-25 15:56:43 208

原创【编译】makefile使用

本文重在记录makefile的使用方法，不介绍相关原理。注意：所有的makefile指令前面都需要两个 Tab缩进1.初步使用创建工作目录，工作目录下创建如下两个文件：main.c#include <stdio.h>int main(){ printf("打印\n");}makefile 或 Makefileapp : main.o c...

2019-09-25 15:29:29 214

原创 makefile:2: *** missing separator. Stop. make 之后出现的错误,解决方法

问题今天建立了个个helloworld.c 以及Makefile文件.hellworld.c 中内容如下:#include<stdio.h>int main(){printf("hello world\n");return 0;}Makefile中的内容如下:hello:helloword.c gcc -o hello helloword.c...

2019-09-25 11:46:23 720

原创 Linux之make 、makefile的使用方法

　先分别创建三个文件，如图　　创建一个makefile文件，然后进行规则编写　　现在就可以使用make命令编译文件了，这样是不是很方便呢？　　

2019-09-24 21:45:40 166

原创 Makefile

概述make 是一个命令工具，它用来解释 Makefile 中的规则。Makefile 中可以使用系统 shell 所提供的任何命令。但注意有些像 set,setenv 等是不行的。Makefile 最大的优点是简单，只需要一句话的解释就可以让一个之前不懂的人可以用起来并发挥作用。但只有掌握了它的内涵才能真正得心应手。编译的知识Makefile 开始其实是为了 C/C++的编译而诞生...

2019-09-24 21:30:43 679

原创 tar: Cowardly refusing to create an empty archive 问题

在解压 .tar.gz文件的时候遇到了这个解压的问题。原命令：tar -zcvf ···.tar.gz提示：tar: Cowardly refusing to create an empty archivetar 打包忽略某个目录。解决方法：tar -zcvf ···.tar.gz ./*...

2019-09-24 20:14:00 25517 1

原创 linux下如何解压缩zip,tar,tar.gz,tar.bz2文件

tar解包：tar xvf FileName.tar打包：tar cvf FileName.tar DirName（注：tar是打包，不是压缩！）———————————————.gz解压1：gunzip FileName.gz解压2：gzip -d FileName.gz压缩：gzip FileName.tar.gz解压：tar zxvf FileName.tar.gz压缩：...

2019-09-24 16:17:34 290

原创 Hybrid error correction and de novo assembly of single-molecule sequencing reads

Hybrid error correction and de novo assembly of single-molecule sequencing reads混合误差校正和重新组装的单分子测序读取单分子测序仪可以产生多千位酶序列，具有极大的改善基因组和转录组组装的潜力。然而，单分子测序的错误率很高，这限制了它们迄今为止在细菌测序中的应用。为了解决这一局限性，我们引入了一种修正算法和装配策...

2019-09-23 21:18:43 346

原创 LoRDEC: accurate and efficient long read error correction LoRDEC:精确且高效的长read校正

LoRDEC: accurate and efficient long read error correctionLoRDEC:精确且高效的长read校正动机：PacBio单分子实时测序是一种产生长片段（reads）的第三代测序技术，具有相对更低的通量和更高的错误率。错误包括大量插入缺失，并使下游分析，像比对或从头装配复杂化。提出了一种利用第二代短片段高准确性的混合策略以修正长片段。短片段...

2019-09-23 16:06:57 595

转载 Hybrid error correction and de novo assembly of single-molecule sequencing reads

本文链接：https://blog.csdn.net/weixin_42472706/article/details/88951572今天介绍的文献是关于三代测序的拼接算法的研究，或者准确来讲是一个利用二代测序和三代测序结果来拼接基因组序列的方法，当然这篇文章其实只是做了一个部分的创新，大部分拼接的原理是基于已有的拼接算法。当然，这篇文献其实有点旧了，是2012年发表在nature子刊biot...

2019-09-20 18:19:22 197

原创 FLAS: fast and high-throughput algorithm for PacBio long-read self-correction FLAS:快速、高通量的PacBio lon

FLAS: fast and high-throughput algorithm for PacBio long-read self-correctionFLAS:快速、高通量的PacBio long-read自校正算法摘要动机第三代PacBio长读大大促进了具有非常大的读长度的测序项目，但它们包含大约15%的测序错误，需要纠正错误。对于只读时间较长的项目，快速进行纠错是一个挑战，...

2019-09-20 18:17:23 449

原创 MECAT: fast mapping,error correction, and de novo assembly for single-molecule sequencing reads

MECAT: fast mapping,error correction, and de novo assembly for single-molecule sequencing readsMECAT:用于单分子测序的快速映射、错误校正、从头组装我们提出了一种结合快速映射、纠错和从头组装(MECAT;访问https://github。用于处理单分子测序(SMS)读取。MECAT的计算效率优...

2019-09-20 18:16:28 892

原创史上最全的长读长数据校错方法大比拼

Acomparativeevaluationofhybriderrorcorrectionmethodsforerror-pronelong reads 对容易出错的长读取片段的混合纠错方式的比较评估背景:第三代测序技术通过产生比第二代测序技术长得多的reads，促进了生物研究的进展。然而，它们臭名昭著的高错误率阻碍了...

2019-09-18 16:14:51 1624

原创 Linux下运行.cpp文件

如何在Ubuntu16下运行一个简单的.cpp文件呢，做法如下：假设我在桌面上写了一个hell，world程序;保存为abc.cpp然后在终端打开：1.点击保存的文件的属性，看在哪里，我的是在桌面上，打开终端后输入：cd /home/xiejiang/桌面2.进入了桌面：3.输入：第一行命令输完了会在桌面上生成一个名为abc的文件，则用./abc即可...

2019-09-17 20:36:55 16275 1

原创 Linux系统版本查询命令

1、# uname －a （Linux查看版本当前操作系统内核信息）2、# cat /proc/version （Linux查看当前操作系统版本信息）3、# cat /etc/issue 或 cat /etc/redhat-release （Linux查看版本当前操作系统发行版信息）4、# cat /proc/cpuinfo （Linux查看cpu相关信息，包括型号、主频、内核信息等）...

2019-09-17 16:00:30 12467 1

转载 PCR技术基本原理

DNA的半保留复制DNA复制时，以亲代DNA的两条链分别作为模板，在DNA聚合酶的催化下，按碱基互补的原则合成两条与模板链互补的新链，组成新的DNA分子，新形成的两个子代DNA与亲代DNA的碱基顺序完全一样。由于子代DNA分子中一条链来自亲代，而另一条链是新合成的，因此这种复制方式称为半保留复制(semi-conservative replication)。DNA的复制过程DNA...

2019-09-06 18:20:25 17113

原创基因与习得

基因与习得黄呆呆致力于科学高效的加快人类的认知文明进程已关注我们知道，人类的行为是由大脑神经冲动造成的，大脑的神经冲动是在外部信息刺激下由大脑内部固化的神经结构决定的，一种是后天环境影响，后天习得的神经结构，一种是先天基因里自带的神经结构。我们现在的基因是由人类几百万年的基因突变+适合当时环境的生存决定的，这与完全向适应未来的环境的基因方向有2个问题：基因突变是随机的...

2019-09-05 18:04:50 176