![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
生物信息学
文章平均质量分 69
hello~bye~
这个作者很懒,什么都没留下…
展开
-
生信的各种数据库
欢迎关注"生信修炼手册" annnovar filter-based annotaton用于分析哪些变异位点是数据库中的已知位点,在判断时,除了染色体位置之外,allel也必须相同。region-based annotation 在分析时只考虑基因组位置,只要是存在overlap关系就会输出结果,而filter-based annotation会更加严格,首先要求基因组上的起始和终止位置必须完全一致,其次变异位点的allel也必须完全相同才行。 简而言之,...转载 2021-04-30 17:25:50 · 2829 阅读 · 1 评论 -
深度学习研究基因组学
一、什么是深度学习?深度学习是表示学习的一种。上图能够看到数据经过不同的隐藏层,数据的表示形式不断的改变,直到线性可分或者变成具体的可能性。1、主要策略 监督学习:预测样本的标签 无监督学习:学习数据固有模式(转化数据)2、数据集的划分训练集:得到最佳模型参数(机器学习学的就是超参数的选择)验证集:挑选最佳模型测试集:保证泛化性能3、如何保证深度学习高效?1、合适的训练集例如样本平衡,这就像有99个女人和1个男人,你只要预测样本是女生,正确率就是99%,但你无法预测男人。2、合理的评估标准例如,不平衡的数转载 2021-04-30 17:20:19 · 1942 阅读 · 1 评论 -
如何获取目标基因的转录因子
<h1 class="post-title entry-title">如何获取目标基因的转录因子</h1> <div id="toc" style="display: block;"><i>Jump to...</i> <ol class="lorem ipsum"><li class="dolor sit amet"><a href="#%E5%A6%82%E4%BD%95%E8%8E%B7%E5%8F%9...转载 2021-04-26 16:58:42 · 5347 阅读 · 0 评论 -
GWAVA
GWAVAhttps://www.sanger.ac.uk/sanger/StatGen_Gwava文献 Nat Methods. 2014 Mar; 11(3): 294–296.首选推荐这个是因为GWAVA可以预测非编码区的突变此方法考虑了开放染色质数据,转录因子结合数据距离TSS远近,组蛋白修饰CpG岛数据等等作为参考来给非编码区的突变打分得到三个层面的scoreRegionscoreTSSscoreUnmatchedscore大致来说分转载 2021-04-21 11:02:48 · 408 阅读 · 0 评论 -
CADD-- 一种用于对整个基因组序列中的疾病原因突变进行排序的新方法 《自然遗传学》
华盛顿大学和哈德森·阿尔法生物技术研究所的研究人员已经开发出一种新的组织和确定遗传数据优先级的方法。联合注释依赖耗竭(CADD)方法将帮助科学家寻找人类基因组中的致病突变事件。当前组织人类遗传变异的方法仅考虑一个或几个因素,并且仅使用可用信息的一小部分。例如,《 DNA元素百科全书》或《 ENCODE》对人类基因组中各种类型的功能元素进行了分类,而序列保护则寻找在数亿年的进化过程中已在不同物种中生存的相似或相同序列。CADD将所有这些数据以及更多的这些数据加在一起得出一个分数,从而提供一种排转载 2021-04-21 11:00:18 · 2616 阅读 · 0 评论 -
.narrowPeak文件
ivf_peaks.narrowPeak上篇文章中所有的图都是利用这个文件作出来的在这里插入图片描述 1;染色体号 2:peak起始位点 3:peak结束位点 4:name 5:score 表示峰值在浏览器中显示的暗度(0-1000)。如果在将数据提交给DCC时所有得分均为“0”,则DCC基于信号值分配1-1000。理想情况下,每个碱基扩散的平均信号值在100-1000之间。 6 :strand 用+/-...转载 2021-04-20 15:33:03 · 4237 阅读 · 0 评论 -
查看deepSEA中GitHub上代码的数据是什么样子的
C:\Users\Admin>pythonPython 3.8.5 (default, Sep 3 2020, 21:29:08) [MSC v.1916 64 bit (AMD64)] :: Anaconda, Inc. on win32Warning:This Python interpreter is in a conda environment, but the environment hasnot been activated. Libraries may fail to l.原创 2021-04-15 10:01:37 · 294 阅读 · 0 评论 -
AgentBind--Deepneuralnetworksidentifysequencecontextfeaturespredictiveoftranscriptionfactorbinding
推荐度:⭐⭐⭐⭐⭐亮点设计了一种机器学习构架AgentBind,可以识别和解释对于转录因子(TF)结合最重要的序列特征。与以往大多数研究结合基序的系统或程序不同,AgentBind着眼于基序附近的序列背景,并可以研究其在TF结合中的作用。近日由加利福尼亚大学圣地亚哥分校郑安与Melissa Gymrek等的研究团队在《Nature Machine Intelligence》杂志上发表了一篇名为“Deep neural networks identify sequence context feat转载 2021-04-07 21:02:14 · 228 阅读 · 0 评论 -
deepSEA--基于深度学习的序列模型预测非编码区变异的功能效应
文章转自:作者:黄树嘉链接:https://www.jianshu.com/p/8cd6ef12b2e2来源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。[注] 本文同时发于泛基因fungenomics公众号和我的个人博客。Deep Learning,现在几乎到处都能看到它的应用。看!紧随DeepBind,在基因组学应用中又来了一个DeepSEA——这是一个适用于表观遗传研究和应用的工具,它只从DNA序列出发,并没用其他有关于表观研究的实验或者测序技术,通过直接转载 2021-04-06 17:22:52 · 3062 阅读 · 1 评论 -
序列特征和基因模型
生信课程笔记8-序列特征和基因模型bio_meow0.0992020.03.24 23:47:36字数 1,529阅读 356基因组特征(GenomicFeatures)包括基因组上的基因模型(gene model)或其他序列特征(gene feature),如genes、exons、UTRs、transcripts等。基因模型被定义为基因产物的描述,包括来源于计算预测、mRNA测序或遗传特征的基因产物。该基因特征旨在近似覆盖该领域的工作者认为是基因的核酸区域。基因模型(gen.转载 2021-03-30 14:45:11 · 2680 阅读 · 0 评论 -
使用CNN预测基因可及性
使用CNN预测基因可及性对于要转录的基因,转录因子蛋白必须能够访问它们才能与DNA结合。遗传密码中的突变会极大地改变DNA的可及性,进而影响基因表达。了解这些突变如何扰乱遗传机制可以导致更有针对性的医学和个性化治疗。但是,当前无法有效解释基因组中的非编码变体减慢了这一进展。在“ Basset:使用深度卷积神经网络学习可访问基因组的调控代码”中,作者通过实现一个卷积神经网络来从序列数据中学习DNA的活性和可访问性,从而解决了这一挑战。 ...转载 2021-03-26 16:38:12 · 1002 阅读 · 1 评论 -
深度学习中的生物数据
基因表达生物学的中心教条指出,DNA被转录为mRNA,然后被翻译为蛋白质。我们知道不同的基因以不同的水平表达,并且这些表达水平可以随细胞而变化。基因表达的这些差异使细胞即使在具有相同的DNA“代码”的情况下也表现出不同的行为。 RNA-Seq是一种我们可以定量细胞样品中基因表达的方法[1]。基于mRNA的水平与该基因产生的蛋白质的水平直接相关的想法,RNA-Seq试图量化mRNA的丰度。这有效地使我们了解了每个基因在特定细胞类型或特定...转载 2021-03-26 16:14:45 · 990 阅读 · 0 评论 -
GWAS研究基本概念2——Fine mapping
有了GWAS公共数据后的下一步就是找因果变异(causal varision),这篇文章介绍fine-mapping精细映射 和gene prioritization基因排序,简单一句话就是 translate GWAS loci to a functional understanding of the associated trait, while taking cell-type- and disease-specific context into account. 再简单点,搞清楚loci——trai转载 2021-03-25 22:17:57 · 4594 阅读 · 1 评论 -
Deep Learning for Genomics: A Concise Overview
本专栏介绍的这篇由卡耐基梅龙大学硕士岳天溦与Eric Xing教授的学生汪浩瀚合著的论文“Deep Learning for Genomics: A Concise Overview”, 综述了深度学习在基因组学中的应用。文中分析了不同深度模型的优劣势,举例讲解如何利用深度学习解决基因学问题,并且指出了当前科研所面临的缺陷和挑战。论文链接:https://arxiv.org/abs/1802.00810作者GitHub还有一些重要论文的笔记: https://github.com/Thither转载 2021-03-15 09:44:53 · 451 阅读 · 0 评论 -
VariantNet--简易的神经网络做DNA测序
前言恩。。最近太忙了,一直在忙着自己的研究生毕业设计,刚刚才提交了初稿,很多内容没有及时更新,见谅见谅...今天来讲讲基于DeepVariant框架的简化版,Simple Convolutional Neural Network for Genomic Variant Calling with TensorFlow这是一个工程师的博客内容,他工作在一间单分子测序的公司,不算是一篇文章,但是思路还是很好的,和大家分享一下。网页: 主要介绍了作者的一些动机和方法介绍源码地址:也用tensorflow写的,不过框转载 2021-03-14 15:46:24 · 420 阅读 · 0 评论 -
Basset:CNN学习新的染色体开放位点
尝试着将神经网络的元件与生物学意义联系起来。大胆假设,小心求证!PMC | Genome Res. | GitHub下载从ENCODE Project Consortium下载125种细胞类型的数据。从Roadmap Epigenomics Consortium下载39种细胞类型的数据。数据形式为DNase-seq的peak信息,保存在BED格式的文件中。使用未去重叠(overlap)的peak数据。预处理以1%的FDR使用模拟方法修改原始数据集——robustness归并重叠的peaks共 $2,071.转载 2021-03-12 16:24:56 · 910 阅读 · 0 评论 -
Cell-type–specific || 单细胞文章新范式
组织器官图谱 某一细胞类型异质性 细胞类型特异性分析单细胞技术带给我们的精度可见一斑。最近注意到单细胞的文章题目有的朝着Cell type–specific(细胞类型特异性)发展了。之前的图谱是聚类后注释出细胞类型或者亚型,现在是分析每个亚型有什么别的特点。细胞能有什么特点呢?什么是细胞类型,不就是基因选择性表达的结果吗?而基因的选择表达受到一系列的转录调控,在这个意义上,细胞命运背后的驱动力在于各自转录因子表达的程序化及其靶标基因。有的细胞类型里面是不是有其特异的转录因子呢?有。而细胞类型一旦形转载 2021-03-12 15:31:00 · 789 阅读 · 0 评论 -
Sequential regulatory activity prediction across chromosomes with convolutional neural networks
Sequential regulatory activity prediction across chromosomes with convolutional neural networks基于卷积神经网络的染色体序列调控活动预测摘要基因预测表型从DNA序列预测大型哺乳动物基因组中细胞类型特异性的表观遗传和转录谱。利用CNN对启动子和远端调控元件进行识别,综合其内容,进行基因表达的预测尽管许多研究表明,在一系列人类疾病和特征中,基因型和表现型的变异之间存在很强的关系,但这种关系运.原创 2021-03-12 15:22:13 · 614 阅读 · 0 评论 -
DNA非编码区突变,DNA外显子突变,DNA内含子突变的区别,什么是DNA突变,什么是基因突变
1,首先要明确DNA和基因的区别:DNA(Deoxyribonucleicacid)是由脱氧核糖核酸构成分子水平上的双链结构;基因(gene)具有遗传效应的DNA片段2,DNA突变与基因突变DNA突变:个别dNMP(脱氧单磷酸核苷)残基以至片段DNA在结构、复制或表型功能的异常变化,也称为DNA损伤,多指点突变;基因突变:基因组DNA分子发生的突然的、可遗传的变异现象(gene mutation)。从分子水平上看,基因突变是指基因在结构上发生碱基对组成或排列顺序的改变。3,DNA非转载 2021-03-12 11:43:33 · 7986 阅读 · 0 评论 -
基于卷积神经网络的序列特异性预测研究--云南大学范航恺硕士论文
基于卷积神经网络的序列特异性预测研究--云南大学范航恺硕士论文摘要基因序列特异性的预测无论是在基因分析领域还是基因调控领域都扮演着重要作用,DNA和RNA结合蛋白的特异性模式序列对致病基因的发现也具有指导性作用。目前生物数据量超级多,传统方法(生物实验、统计分析)耗时耗财耗人,采用深度学习方法可以有效避免这些问题。本文主要关注点是模体识别问题中模体的序列特异性,针对这个问题,使用卷积神经网络建立了相应的序列预测模型。该模型主要涉及几个阶段:首先将字符串序列转化为数值编码矩阵,再用预测模式的数原创 2021-03-11 22:19:34 · 634 阅读 · 0 评论 -
生物信息--连锁不平衡(Linkage Disequilibrium)
转载于:http://blog.csdn.net/bruceyang2009lzu/article/details/8211043 不同基因座位的各等位基因在人群中以一定的频率出现。在某一群体中,不同座位某两个等位基因出现在同一条染色体上的频率高于预期的随机频率的现象,称连锁不平衡 (linkage disequilibrium) 由于 HLA 不同基因座位的某些等位基因经常连锁在一起遗传,而连锁的基因并非完全随机地组成单体型,有些基因总是较多地在一起出现,致使某些单体型在群体中呈现较高的频率,从而引起转载 2021-03-10 17:17:48 · 616 阅读 · 0 评论 -
生物统计学基本术语
这里简单介绍下生物统计学里面的基本术语。样本与群体群体是指需要调查的所有个体,但是群体常常是可望而不可求的,因此我们使用抽样的方法从群体随机抽取一定量样本来对群体进行估计。期望与平均值平均数是一个统计学概念,期望是一个概率论概念。平均数是实验后根据实际结果统计得到的样本的平均值,期望是实验前根据概率分布“预测”的样本的平均值。之所以说“预测”是因为在实验前能得到的期望与实际实验得到的样本的平均数总会不可避免地存在偏差,毕竟随机实验的结果永远充满着不确定性。如果我们能进行无穷次随机实验并计转载 2021-03-09 21:46:49 · 1370 阅读 · 0 评论 -
AKT基因 AKT1 AKT2 AKT3
转载 2021-03-09 11:14:55 · 2594 阅读 · 0 评论 -
MACS软件中peak-calling算法简介
转载:https://www.plob.org/article/7227.html本文将以MACS为例,介绍ChIP-seq数据的处理流程。为节省篇幅,本文略去测序数据预处理、mapping reads等步骤,直接从peak-calling开始讲起。一、首先粗略地介绍一下MACS的基本原理。TF在基因组上的结合其实是一个随机过程,基因组的每个位置其实都有机会结合某个TF,只是概率不一样,说白了,peak出现的位置,是TF结合的热点,而peak-calling就是为了找到这些热点。如何定义热点转载 2021-03-09 10:54:58 · 1388 阅读 · 0 评论 -
basenji模型process过程的问题
在运行process过程时,出现:发现在源文件中修改一下路径解决了????原创 2021-03-08 21:41:46 · 248 阅读 · 0 评论 -
GC bias GC偏好
GC偏好1条回复GC偏好测序中的GC偏好指的是基因组上GC含量在50%左右的区域更容易被测到,产生的reads更多,这些区域的覆盖度更高,在高GC或者低GC区域,不容易被测到,产生较少的reads,这些区域的覆盖度更少。用基因组单位长度的bin中的GC含量作为横坐标,覆盖度作为纵坐标作图,可以明显的看到该趋势。这种趋势在100kb为单位的bin中依然存在。如图A中可以看出随着GC含量的增加,counts是先增加后减少,bin的大小为10kb。图C可以看出大部分片断的GC含量0.4到0.6之间。转载 2021-03-08 17:08:14 · 4321 阅读 · 0 评论 -
Python生物学Cookbook - Bioinformatics with Python Cookbook 2nd -2018.pdf
简介图片.png从Python生态系统中发现现代的新一代测序文库,分析大量生物数据主要特点使用最重要的Python库和应用程序执行复杂的生物信息学分析实施新一代测序,宏基因组学,自动化分析,群体遗传学等探索生物信息学数据分析的各种统计和机器学习技术生物信息学是一个活跃的研究领域,它使用一系列简单到高级的计算来从生物数据中提取有价值的信息。本书涵盖了新一代测序,基因组学,宏基因组学,群体遗传学,系统发育学和蛋白质组学。您将学习现代编程技术来分析大量的生物数据。借助实际示例,您可转载 2021-03-08 09:38:00 · 1428 阅读 · 0 评论 -
一文读懂 ChIPseq
文章目录 一、介绍二、测序原理三、检测蛋白质与DNA序列的结合峰1、测序片段匹配到参考基因组2、检测峰3、提高峰质量 四、影响ChIPseq测序结果的因素1、免疫共沉淀的影响2、测序的影响测序深度的对组蛋白修饰检测的影响3、重复样和重现性 一、介绍 ChIP-seq,测序方法 ChIP 指染色质免疫共沉淀技术(Chromatin Immunoprecipitation,ChIP),seq 指的是二代测序方法 作用:识别蛋白质与DNA互相作用情况.转载 2021-03-08 09:27:08 · 18485 阅读 · 2 评论 -
生信格式 | bigwig,bw (基因组浏览器绘制)
文章目录 一、特点及适用场景:二、wig 转 bigwig三、bedGraph 转 bigwig四、其他工具 一、特点及适用场景: 后缀名:.bw,.bigwigbigWig文件为索引二进制格式主要用于密集,连续的数据在处理大型数据集时,bigWig文件的显...转载 2021-03-08 09:13:41 · 1375 阅读 · 0 评论 -
如何自学生物信息学
什么是生物信息学生物信息学与以往的传统生物学不同,它本身是一个混合体,而且在今天看来它应当还要包含现在的NGS和基因组学。我认为,它重在数据,因此在这个领域中比较重要的是数学和计算机——计算机我指的是:编程能力和算法设计能力。这是我的切身体会,许多生物知识其实可以往后慢慢学,不必一开始花费大量时间补充生物知识。但生物信息毕竟还是和生物有关,毫无生物知识其实也说不过去。那么对于初学者来说,想要进入这个领域,我觉得一开始需要重点搞清楚几个基本概念。比如,什么是基因组,什么是转录组,什么是蛋白组,什么是染转载 2021-03-05 20:42:05 · 563 阅读 · 1 评论 -
模式识别在生物信息领域的应用实例
模式识别在生物信息领域的应用实例 一、问题需求 细胞是动植物的结构和功能的基本单位。人体大约由几十万亿个细胞组成,根据细胞的形态、功能等可以把细胞分为众多不同的类型,如生殖细胞、神经细胞等等。研究发现,即使是同一类的细胞,在形态、基因表达等方面仍存在着差异。为了探究细胞与细胞之间的差异及其原因,单细胞测序技...转载 2021-03-04 10:01:26 · 1303 阅读 · 1 评论 -
机器学习在生物信息领域可以做什么
用“machine learning genomics”在 biorxiv 中检索(限定一下Bioinformatics领域),查看最新文章的标题和摘要,看看机器学习都能做些什么实际的项目。 1.Machine-learning annotation of human splicing branchpoints(RNA剪切体位点预测) 使用机器学习来注释人类剪切体的分支点 需要有 RNA splicing 的知识,首先得搞懂 branchpoint、lariat formation的概念 2.Th.转载 2021-03-04 09:42:45 · 1686 阅读 · 1 评论 -
运行basenji框架时出现的问题
1.一定先将各种包安装好,否则容易报错2.分不清哪个是输入,输出是什么。另外每个数据集对应的参数param.json文件对应的什么找不到那个文件,没办法,把另一个文件夹的文件拷贝过去了再运行:...原创 2021-03-03 20:02:59 · 143 阅读 · 1 评论 -
生信过程中的各种文件格式
生信分析过程中,会与很多不同格式的文件打交道,除了原始测序数据fastq之外,还需要准备基因组文件fasta格式和基因注释文件gtf格式。在分析的过程中还会有众多中间文件的生成,如bed、bed12、sam、bam、wig、bigwig、bedgraph等,生成后我们一般会查看下内容了解文件每一列的含义,以此来决定需要提取哪些有用信息列来进行下一步分析。插播一个小剧场老板:“先查看一下bam文件内容。”小白:嗒嗒嗒敲键盘。$lessehbio.bam"ehbio.bam"maybe...转载 2021-03-02 20:45:20 · 1302 阅读 · 0 评论 -
深度学习模型分析人类复杂疾病的准确性
原创 梅斯医学 MedSci梅斯既往研究显示,通过全基因组关联研究(GWAS)分析鉴定出的疾病风险变异主要位于基因组的非编码区域中。因此,全基因组图谱的深度学习模型在预测DNA序列的调控作用方面存在着巨大的潜力。然而,目前深度学习尚未能完全解析人类复杂疾病的信息。该研究主要使用两个已有的深度学习模型:DeepSEA和Basenji,基于一系列编码、保守和监管注释,针对应用分层连锁不平衡(LD)评分回归划分的41种疾病和性状评估全基因组的SNP位点注释。研究人员通过对所有(11个血液样本和8个大脑样本转载 2021-03-02 16:47:05 · 661 阅读 · 0 评论 -
basenji框架揭秘
目录 basenji_train.py:读入json文件构建模型seqnn_model构建seqnn_trainer编译并训练模型 basenji_train.py: 代码运行流程:根据params_small.json文件获取模型参数与训练参数,然后使用seqnn....转载 2021-03-02 15:45:26 · 463 阅读 · 0 评论 -
表观遗传
原创 2021-03-02 11:47:33 · 227 阅读 · 0 评论 -
应用卷积神经网络CNN预测DNA-蛋白结合位点Convolutional neural network architectures for predicting DNA–protein binding
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。卷积神经网络是目前应用最为广泛之一的深度学习技术,它是一种含特征提取器(由卷积层和混合池层组成)的深度神经网络,该网络流行于计算机视觉领域。计算机视觉非常直观且好理解,机器学习领域对其关注已久。人类自身具备优秀的视觉处理能力,所以当设计的学习算法不及预期的时候,我们经常提出新的研究手段。实际上,手写字符识别的数据库 MNIST已经成为了机器学习界的果蝇(一个在生物界用来作转载 2021-03-01 19:49:57 · 1949 阅读 · 0 评论 -
关于深度学习在生物学领域的应用分析Applications of Deep Learning in Biomedicine
申明:本文来源于对论文“Applications of Deep Learning in Biomedicine”的理解。深度学习研究及其在生物医药领域的潜在应用 深度学习已经在各种生物学应用中取得成功。在本节中,我们回顾了在各个研究领域进行深度学习的挑战和机会,并在可能的情况下回顾将深度学习应用于这些问题的研究(表1)。我们首先回顾了生物标志物开发的重要领域,包括基因组学,转录组学,蛋白质组学,结构生物学和化学。然后,我们回顾一下药物发现和再利用的前景,包括使用多平台数据。...转载 2021-03-01 19:21:00 · 1619 阅读 · 0 评论 -
通过pytorch建立神经网络模型 分析遗传基因数据
DNA双螺旋(已对齐)合并神经网络(黄色)我最近进行了有关基因序列的研究工作。我想到的主要问题是:“哪一种最简单的神经网络能与遗传数据最匹配”。经过大量文献回顾,我发现与该主题相关的最接地气却非常有趣的工作是在Yoshua Bengio 教授的实验室中进行的。这篇论文的题目是:“饮食网络:脂肪基因组学的瘦参数”,它的主要目标是将基因序列划分为26个种族。我从那篇论文中得到了灵感,在这里我想解释一下建立神经网络来解决这类问题的基本原理。要阅读这篇博客,不需要生物学方面的背景知识;为了直接进入计算部分,我将转载 2021-02-28 19:56:43 · 434 阅读 · 0 评论