2021年02月_wangchuang2017

12月 11月 10月 09月 08月 07月 06月 02月 01月

原创第一型错误与第二型错误（ I 型错误 II 型错误）

简介我们不妨先看下定义：第一类错误：原假设是正确的，却拒绝了原假设。第二类错误：原假设是错误的，却没有拒绝原假设。第一类错误即 I 型错误是指拒绝了实际上成立的H0，为“弃真”的错误，其概率通常用α表示，这称为显著性水平。α可取单侧也可取双侧，可以根据需要确定α的大小，一般规定α=0.05或α=0.01。第二类错误即 II 型错误是指不拒绝实际上不成立的H0，为“存伪”的错误，其概率通常用β表示。β只能取单尾，假设检验时一般不知道β的值，在一定条件下(如已知两总体的差值δ、样本含...

2021-02-26 15:46:53 63459 1

原创 edgeR/limma/DESeq2差异基因分析→ggplot2作火山图→biomaRt转换ID并注释

请一定看这里：写下来只是为了记录一些自己的实践，当然如果能对你有所帮助那就更好了，欢迎大家和我交流三者区别三者区别差异分析流程:1 初始数据2 标准化(normalization)：DESeq、TMM等为什么要标准化？消除文库大小不同，测序深度对差异分析结果的影响怎样标准化？找到一个能反映文库大小的因子，利用这个因子对rawdata进行标准化3 根据模型检验求p value：泊松分布(poisson distribution)、负二项式分布(NB)等...

2021-02-26 15:33:26 18232 2

原创德布鲁因图和OLC组装基因组

德布鲁因图和OLC组装基因组基本概念k-mer指的是bai将一条read，连du续切割，挨个碱基划动得到zhi的一序dao列长度为K的核苷酸序列 contig表示从大规模测序得到的短读(reads)中找到的一致性序列来确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成ScaffoldScaffold上可能有若干个Contig，中间有模糊序列相连接成Scaffold德布鲁因图所谓德布鲁因图就是有节点和边构成的有向图，其要求是相邻两个节点的元素错开.

2021-02-26 15:25:52 2606 3

原创 voom: precision weights unlock linear model analysis tools for RNA-seq read counts

voom: precision weights unlock linear model analysis tools for RNA-seq read counts标准化方式首先在定义cpm的时候，作者利用如下公式进行计算其中，我们在进行普通RNA-seq的时候通常会有n个sample，G个基因，那么r(gi)，g = 1—G代表基因数目，i = 1—n代表样品数目，所以r(gi)即为第i个样品中第g个基因的count数所以R(i)表示了对于每一个样本来说，它们所有基因的count总数量

2021-02-26 15:20:46 949

原创基因组组装----k-mer

1.什么是k-mer？k-mer：在生物信息学中，k-mers是包含在生物序列中的长度为k的子序列。比如序列：GTAGAGCTGT,根据k值不同，可得到以下k-mer。注：长度为L的序列对于一个给定的K可以得到L-k+1个k-mers。file2.可视化k-mers----k-mer spectrumk-mer spectrum：显示了序列中的每个k-mer的多重性(例:8-mers' frequency)与具有该多重性的k-mers的数目。下图为大肠杆菌的8-mer spe

2021-02-26 15:15:11 5277

原创群体遗传学习笔记-测序技术学习

群体遗传学习笔记-测序技术学习重测序技术简介全基因组重测序(Resequencing)是对已知参考基因组序列的物种进行不同个体间的基因组测序，并在此基础上对个体或群体进行差异性分析。通过全基因组重测序，将不同梯度插入片段（Insert-Size）的测序文库结合短序列（Short-Reads）、双末端（Paired-End），可以找到大量的单核苷酸多态性位点(SNP)、拷贝数变异(Copy Number Variation，CNV)、插入缺失(InDel，Insertion/Deletion)、.

2021-02-26 15:13:21 6622 1

原创如何进行基因组组装？

如何进行基因组组装？(1)随着测序的发展，越来越多的生物体被进行基因组进行测序，这些测序的reads，再被用于组装或者其它相关的研究。基因组序列组装是一个研究的起点，如果你研究的物种没有参考基因序列，就无从找到该生物有的基因，进行基因的功能分析，然后开展下游的群体遗传，结构差异等等一系列非常有趣的研究。所以说组装好参考基因组是基因组研究的最基础的事情之一。接下来，希望通过网上一些教程，和大家熟悉了解一下如何进行基因组组装。首先先让我们从大的picture来回顾一下，基因组组装的相关知识。.

2021-02-26 15:12:02 4986

原创 SPAdes混合组装二代、三代测序数据

导读SPAdes是2012年发表在Journal of Computational Biology上的一篇文章提出的二代测序组装软件，是目前引用量已经达到6200+，在宏基因组组装软件中引用量最高【其他组学不清楚了】。SPAdes不仅推出rnaSPAdes【转录组】、metaSPAdes【宏基因组】、plasmindSPAdes【质粒】，还推出了可以用于二代、三代测序数据混合组装的hybrid SPAdes功能。SPAdes虽然在速度、效率上比不过megahit，但SPAdes内部含校错功能，组.

2021-02-26 14:58:28 4988

原创单倍型基因组组装方法

1. 什么是单倍型？image同源染色体：同源染色体，一个来自母本，一个来自于父本。单倍型：单倍体基因型的简称。遗传学上指在单条染色体上一系列遗传变异位点的组合。2. 单倍型组装的意义？目前，大多数二倍体基因组组装都忽略了同源染色体之间的差异，将基因组组装成一个假的单倍体序列，这是二倍体类型的组装的人为共识。这种人为的共识可能导致基因注释的不精确和生物学解释的错误。为了深入研究的需要，更多的物种需要将来自父母的遗传信息都获得，因此参考基因组就需要获得两个单倍体基因组，...

2021-02-26 14:52:54 9765

原创 DESeq2详解

DESeq2详解先了解完整的分析流程和工具：http://blog.sina.com.cn/s/blog_9cf2d3640102x9kx.html这是一个系列文，包括：从标准的workflow开始，到更高级的数据操作和workflow个性化，最后是DESeq2的统计学原理以及常见的question解答本文介绍在差异表达分析之前的操作步骤，主要是DESeq2导入数据和预处理，DESeq2对导入不同数据类型兼容性很好。导入数据Why un-normalized counts? DESeq2

2021-02-26 14:40:54 22483 1

原创基因组组装的那些困扰，用单倍体基因组一一破解！

动植物基因组非常复杂，基因组大小、杂合度、GC含量、倍性等都会影响着基因组组装的难度和结果。特别是目前动植物基因组大多采用二倍体或多倍体材料直接进行测序组装，对于复杂基因组如高杂合、大基因组等，组装的难度很高。同时，二倍体或多倍体组装的结果混杂了双亲等位基因组的嵌合序列，可能会引入错误的基因注释信息。此时如果能进行单倍体基因组组装，不仅能降低组装难度，还能获得一套染色体组的序列。什么是单倍体基因组？二倍体拥有两套染色体组，对有性繁殖的物种来说，一套染色体组来源于母亲，另一套来源...

2021-02-25 18:58:28 5657 1

原创 Single-Molecule Sequencing Assists Genome Assembly Improvement and Structural Variation In2021-02-25

Single-Molecule Sequencing Assists Genome Assembly Improvement and Structural Variation InferenceOpen ArchivePublished:April 19, 2016DOI:https://doi.org/10.1016/j.molp.2016.04.002PlumX MetricsDear Editor,The single-molecule real-time (SMRT) sequencin

2021-02-25 17:28:22 410

原创【转录组】如何进行序列比对？

经过原始数据的质量评估，去除低质量、含N、含接头等reads的步骤后，我们得到了clean data，然后我们就需要进行序列比对了。序列比对的目的是：定位，也就是确认每条reads是否在基因组/转录组上以及找到它的位置。同时依据结果进行相关的质控，来判断实验是否有问题、样本是否存在污染、数据量是否足够、reads的位置是否有偏好性等。在转录组分析中，可能会进行两次比对，一次是将reads比对到基因组上，一次是将reads比对到转录本/基因上。其中比对到转录本/基因上是必须的，比对到基因组上...

2021-02-25 16:49:25 5323

原创 2021-2027全球与中国DNA测序市场现状及未来发展趋势

2021-2027全球与中国DNA测序市场现状及未来发展趋势晓晓关注她2021-2027全球与中国DNA测序市场现状及未来发展趋势本报告研究全球与中国市场DNA测序的发展现状及未来发展趋势，分别从生产和消费的角度分析DNA测序的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。主要生产商包括：IlluminaRochePacific Biosciences

2021-02-24 09:32:54 942

原创科研领域的测序变迁

曾几何时，通过高通量测序发表论文，还那么容易。搞几个处理，收集几个样本，送到测序公司，40天后数据下机，标准流程一跑，百分之百就能够发表论文。大多数吃螃蟹的人搞下不少SCI，但是那时候测序价格昂贵，不少科研团队只能望价兴叹，一个转录组几万块，付不起这个成本啊。随着国内到处布点测序仪，测序成本直线下降百分之一，从几万块直接打到几百块，真的成为白菜价。这下好了，感谢Illumina们普降甘霖，大家都有机会通过测序发SCI了？图样图森破。测序价格下降，你发现靠测序捡SCI大文的套路，貌似行...

2021-02-23 16:11:42 263

原创链特异性建库方式

你好就是关于建库测序存在疑问，我看网上有一种链特异性建库，把cDNA第二链降解然后扩增，那扩增过程中不就又有二链了吗，怎么知道的方向性？链特异性建库方式（以目前最常用的dUTP为例，如下图所示）首先利用随机引物合成RNA的一条cDNA链，在合成第二条链的时候用dUTP代替dTTP，加adaptor后用UDGase处理，将有U的第二条cDNA降解掉。...

2021-02-22 17:28:42 1978 3

原创机器学习阴性集的选择 —— drug-target interactions （DTIs）

文章目录前言一、已存在的阴性集选择方法 1、未知的DTIs 2. wang et al.的两种策略 2.1 策略一 2.2 策略二 3. 基于guilt-by-association反向选择 4. OCSVM：基于阳性推测阴性集 5. 结合guilt-by-association逆否命题和OCSVM 二. 文献中阴性集选择 1. 药物对的阴性集 2. 药靶阴性集前言在机器学习中，阴性集的选择会影响结果的准确性。高度可.

2021-02-22 17:25:51 1457

原创 Graph Convolutional Neural Networks for Predicting Drug-Target Interactions

1. 摘要 2. 数据集 DUDE数据集改进 DUDE-chemBl负样本数据集最大无偏数据集（MUV） 3. 图构建 pocket graph molecuar graph 4. 口袋pretraining 使用autoencoder 4.1 阶段1 自编码编码器解码器 4.2 阶段二自编码 4.3 模型设计实验结果 1. baseline 2. 数据可视化 3.测试模型是否有学习到口袋信息 4...

2021-02-22 17:22:26 1363 1

原创基因组组装算法

本文主要内容：De Bruijn graph算法基因组组装过程 Kmer为什么是奇数 Kmer的作用在上篇文章cutadapt使用指南中，我们提到可以使用minion来寻找测序数据的接头，但是原理是什么呢？这个问题激发了我的兴趣，于是搜索了原文献：Unfortunately sometimes adapter information is not properly tracked and attached as metadata to the raw sequencing data and

2021-02-20 11:30:11 1350

原创基因拼接

基因组拼接方法de novo定义：from the beginning（从头拼接）, no reference genome guided（无参考基因组）三类de novo基因拼接的计算方法：1. Greedy algorithm：对于含重复区的序列拼接效果不好Shortest common string (SCS)：最短的、包含原序列S中所有的k-mer的序列但是Greedy algorithm为追求最短的序列或者最多的重叠，出现了“吃掉”重复区间的问题。2. Overlap La

2021-02-20 11:28:58 3375

原创基于RNA测序技术的转录组从头拼接算法研究

基于RNA测序技术的转录组从头拼接算法研究摘要：生物信息学主要研究分子生物学领域,而对于分子生物学领域，转录组的从头拼接又是其核心内容,即利用转录组的测序片段拼接出整个转录组中的所有表达的转录体。而RNA测序的出现，在计算上给转录组的拼接提供了一定的挑战。在目前，转录组的拼接算法主要是基于参考基因组的拼接方法与从头拼接方法。虽然基于参考基因组的方法比从头拼接方法更有突破性，不过基于参考基因组的拼接方法，仍然存在着一定的致命缺点，即为要有一个高质量的参考基因组。而从实际情况分析,绝大多数的生物根本不.

2021-02-20 11:28:01 2698 1

原创基因组组装

基因组 de novo 组装原理Falcon软件的组装流程为了错误校正，将原始子reads进行overlap 预组装和错误校正错误校正后reads的overlap检测 overlap的过滤从overlap构建图从图构建contigs几个解释：sub-reads是啥？为什么要进行错误校正？校正的原理是什么？length_cutoff和length_cutoff_pre分别是什么意思，为什么要设置这两个参数？sub-reads就是机器出来的reads经过处理后的子reads，方

2021-02-20 11:18:39 7660

原创应用第二代测序技术的转录组组装

目录Next-generation transcriptome assembly 应用第二代测序技术的转录组组装... 2第一部分：总体介绍挑战与机遇... 2第二部分：实验提取与数据分析... 2组装前：... 2组装策略：... 3选择策略... 4选择组装软件... 4评价组装的质量... 5总结和未来的展望... 5全文完... 5Next-generation transcriptome assembly 应用第二代测序技术的转录...

2021-02-20 11:06:03 1578

原创转录因子详细介绍(motif)

转录因子详细介绍(motif)TF: transcription factor转录因子TFBS: transcription factor binding site转录因子结合位点TFBS是序列内的location，TF特异结合在这里，这个site有这种特点1 和一些参考相关的一个位置（开始，结束，strand），这些reference可以是染色体开始，geneTSS。也可以是一段sequence2 A SITE可以是实验证实的（已知的），也可以是一些算法（预测的）3 例子，下面这个图是酵母

2021-02-20 10:59:19 31920 1

原创 WGCNA算法研究笔记

WGCNA算法研究笔记研究了近半年的算法，记录下来给自己一个交代，也应该是考G前地最后一篇日志了。Weighted Gene Co-Expression Network Analysis中文名有翻译成加权关联网络分析的，感觉不是很恰当，英文来得比较直接。本来是佟昊从老汪那拿的一个课题，因为看起来比较有意思就把文章找来慢慢啃，到现在算是捣鼓出点名堂了。方法是UCLA的一个教授提出来的，在文章中他将其归类到系统生物学的研究方法中，不过个人认为由于其分析水平还是只停留在DNA芯片上，并未到达系统的程度，但

2021-02-20 10:54:31 1493

原创 WGCNA（加权基因共表达网络分析）

WGCNA（加权基因共表达网络分析）序章这个工具现在很火，高分文章用到很多。加权基因共表达网络分析(WGCNA，Weighted gene co-expression network analysis) WGCNA能够从复杂数据中（N多分组）快速地提取出与样本特征相关的基因共表达模块，以供后续分析。简单地说，它通过计算基因之间的表达相关性，将具有表达相关性的基因聚类到一个模块中，然后再分析模块与样本特征（包括临床特征、手术方式、治疗方法等等）之间的相关性，WGCNA搭建了一座样本特征与基因表达

2021-02-20 10:16:38 15662 6

原创 Gene co-expression analysis for functional classification and gene–disease predictions 基因共表达分析的功能分类

Gene co-expression analysis for functional classification and gene–disease predictions基因共表达分析的功能分类和基因疾病预测Key Points• RNA-seq-based co-expression analysis can be used to assign putative functions to non-coding RNAs and to identify candidates for roles

2021-02-20 10:14:05 2331

原创利用共表达和RNA SEQ数据进行差异基因表达分析

MRFSEQAs a fundamental tool for discovering genes involved in a disease or biological process, differential gene expression analysis plays an important role in genomics research.High throughput sequencing technologies, e.g., RNA-Seq, are increasingl...

2021-02-20 10:10:46 4893

原创 DDR: efficient computational method to predict drug–target interactions using graph mining and machi

DDR: efficient computational method to predict drug–target interactions using graph mining and machine learning approachesDDR:利用图挖掘和机器学习方法预测药物-靶点相互作用的有效计算方法通过计算找到药物靶点相互作用(DTIs)是一种方便的方法，可以以较低的成本和合理的准确性识别新的DTIs。然而，现有的DTI预测方法存在假阳性预测率高的问题。结果:我们开发了DD...

2021-02-19 15:49:44 513

原创 ReMILO：使用短读和长读的参考辅助错配检测算法

ReMILO：使用短读和长读的参考辅助错配检测算法鲍古德，宋长进，凌小兰作者须知Bioinformatics，第34卷，第1期，2018年1月1日，第24-32页，https：//doi.org/10.1093/bioinformatics/btx524发布时间：2017年8月21日文章历史PDF格式拆分视图引用权限图标权限分享抽象的动机...

2021-02-18 09:53:52 1136

原创 Reference-assisted chromosome assembly

Reference-assisted chromosome assemblyJaebum Kim,Denis M. Larkin,Qingle Cai,Asan,Yongfen Zhang,Ri-Li Ge,Loretta Auvil,Boris Capitanu,Guojie Zhang,Harris A. Lewin, andJian MaPNASJanuary 29, 2013110(5)1785-1790;https://doi.org/10.1073/pnas...

2021-02-18 09:48:32 1939

原创 The advantages of SMRT sequencing

Genome Biology于2013年7月刊发表的一篇题为《The advantages of SMRT sequencing》的综述，作者分别是大名鼎鼎的诺贝尔奖得主Richard Roberts、美国Broad研究院的计算生物学家Mauricio Carneiro、美国冷泉港实验室的生物信息学家Michael Schatz，他们三人可谓是新一代测序应用的风云人物，分别用SMRT测序技术开辟了甲基化组学、基因分型验证和混合拼接组装等方面的突破性进展，相信看过全球访谈系列的读者都能耳熟能详了。该.

2021-02-18 08:36:35 262

原创概率论于数理统计

下面我用一篇短文来简单介绍统计在学习什么。需要掌握哪些知识。在一开始我打算放一张图，让大家理解一下统计到底是在干什么，统计的基本流程是什么，旨在帮助大家建立起一个初步概念。数据的统计分析主要包括两个方面的内容：一是统计描述，主要是运用一些统计指标诸如均数、标准差以及统计表和统计图等，对数据的数量特征及其分布规律进行客观地描述和表达，不涉及样本推断总体的问题；二是统计推断，即在一定的置信度或概率保证下，根据样本信息去推断总体特征。统计推断通常包括参数估计和假设检验两个内容：参数估计是指用样本指标推

2021-02-18 08:19:14 1157

原创基因就是DNA吗

基因就是DNA吗说到DNA，不少人会说：那不就是基因吗？其实，这是一种误解。DNA和基因是两个频繁使用的科学词汇，两者关系非常密切，但又绝不能把DNA等同于基因。打个比方，将一根长长的钢丝，每隔一段绕成包含几个圈的弹簧圈，这时的钢丝除有直的部分外还有弹簧圈，尽管弹簧圈是由钢丝绕成的，但是不能简单地把弹簧圈等同于钢丝。DNA与基因就如同弹簧圈与钢丝：基因是DNA构成的，但绝不能把DNA都看作基因。那么，DNA究竟是什么呢？它的全名叫脱氧核糖核酸，是一类大分子，因最初是从细胞核中提取出来的.

2021-02-17 17:24:37 1740

原创 A Novel Approach Based on Bipartite Network Recommendation and KATZ Model to Predict Potential Micro

A Novel Approach Based on Bipartite Network Recommendation and KATZ Model to Predict Potential Micro-Disease AssociationsShiru Li,1Minzhu Xie,1 ,*andXinqiu Liu2Author informationArticle notesCopyright and License informationDisclaimerThis a...

2021-02-17 17:17:54 1145

原创三维基因组染色质环(loop)结构

三维基因组染色质环(loop)结构与调控因子紧密关联，直接对基因表达进行调控。有研究表明，非编码区域的突变往往会导致loop结构的破坏，从而导致原癌基因被激活。目前，loop结构的识别只能通过高分辨率的三维检测技术来获取，而高分辨率的数据需要通过高测序深度以及更多细胞数量来实现，对于三维结构未知的细胞类型或物种，通过实验技术来得到loop结构仍旧是一项挑战。针对这一挑战，中南大学计算机学院生物信息学团队研发了基于多组学数据集成学习的LoopPredictor方法，采用H3K27ac组蛋白以及Y.

2021-02-17 16:03:15 5112

原创基因组的三维立体图

基因组的三维立体图细胞有个艰巨的任务——它们必须整齐地将几米长的遗传物质装进一个直径只有 5 微米的细胞核！折叠聚在一起的基因有了相互作用和互相切换，从而影响人类健康和疾病。一个国际科学家小组设计出一种强大的新技术，来 “映射” 整个基因组折叠后的 3D 图。他们的论文最近被发表在《Nature》杂志上。细胞有个艰巨的任务——它们必须整齐地将几米长的遗传物质装进一个直径只有 5 微米的细胞核！折叠聚在一起的基因有了相互作用和互相切换，从而影响人类健康和疾病。一个国际科学家小组设计出一种强大.

2021-02-17 16:00:18 2588

原创操作系统

操作系统操作系统的定义操作系统是指控制和管理整个计算机系统的硬件和软件资源，并合理地组织调度计算机的工作和资源的分配，以提供给用户和其他软件方便的接口和环境，它是计算机系统中最基本的系统软件。操作系统的功能和目标（1）作为系统资源的管理者（2）作为用户和计算机硬件之间的接口 a.联机命令接口=交互式命令（说一句做一句） b.脱机命令接口=批处理命令接口（说一堆做一堆）eg：.bat批处理文件 c.程序接口=系统调用=广义指令（通过程序调用间接使用的...

2021-02-17 15:57:21 536

原创 Badread: simulation of error-prone long reads Badread:模拟容易出错的长读断

背景DNA测序平台旨在测量DNA样本中的核苷酸(A、C、G和T)序列。Illumina公司生产的测序仪在过去十年的大部分时间里一直是主导技术，但他们的平台生成的序列片段(reads)相对较小(长度约为100 - 300个核苷酸)。相比之下，Oxford Nanopore Technologies (ONT)和太平洋生物科学公司(PacBio)生产的长读序列测序仪可以生成数万个或更多核苷酸的序列片段(爱森斯坦，2017)。这些平台上的长读本对于基因组组装和其他生物信息分析非常有益(科伦，瓦伦茨，柏林，

2021-02-17 11:31:53 547

TA关注的人

2014年下半年软件设计师上午试题(含答案

2016年下半年 软件设计师 详细答案.docx

传智播客java愚人节恶搞程序源代码

官网最新版本 MyEclipse 2017 CI 7 破解工具+安装包

java语言 49集 郑莉 清华大学

小颖Java源代码反编译专家 V1.4终极版.

C程序设计(第四版)

EndnoteX8论文管理工具

EndNote X8.part2

Oracle 10g数据库[孙风栋 等][习题解答]

apache-tomcat-8.0.12-windows-x64.

毕向东_Java基础源代码Codes

VC++6.0助手

范磊课程源代码完整版课程

AIDA64中文版是一个测试软硬件系统信息的工具

冯博琴贾应智C++教材PPT全十章

OSI七层模型和TCP/IP五层模型

斐波那契数列第n项是Fn

Java虚拟机 JVM

软件定义物联网的QoS建模及其动态路由研究

单体型基因组组装算法的研究?

PacBio长read纠错算法的研究

程序编译的过程有哪些步骤？

人工智能(AI）、深度学习(DL)、机器学习(ML)、神经网络（RNN/CNN）、自然语言处理（NLP）

为什么 CPU 访问寄存器的速度比访问内存的速度快

大数据大数据4V特征？

大数据big Data何为大？

2016年下半年软件设计师详细答案.docx

java语言 49集郑莉清华大学

Oracle 10g数据库[孙风栋等][习题解答]