生物信息学
MoonLord0525
这个作者很懒,什么都没留下…
展开
-
数据挖掘与生物信息学
什么是数据挖掘(Data mining)数据挖掘,又称为数据库中知识发现。它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的过程,与数据库有着密切的联系。数据挖掘应用的领域非常广泛,生物医药领域也不例外。比如,大数据和精准医疗!不是搜集了大量体检报告就可以算作拥有了大数据,就可以用于精准医疗。大数据有四字箴言:大、快、杂、疑,即大数据资料量庞大、变化飞快、种类繁杂、以及真伪存疑。图 1 大数据四字箴言数据挖掘三要素统计 数据库系统 机器学习数据库数据库系统数据原创 2020-06-06 10:41:26 · 1470 阅读 · 0 评论 -
统计基础和序列算法
贝叶斯公式及其生物学应用通常,事件A在事件B发生的条件下发生的概率,与事件B在事件A发生的条件下发生的概率是不一样的。然而,这两者是有确定的关系的,贝叶斯公式就是描述这种条件关系概率的公式。贝叶斯公式的应用贝叶斯方法在蛋白质耐热性分类中的应用。二元预测的灵敏度和特异度生物学中灵敏度和特异度的应用富亮氨酸重复序列的预测。基本序列算法序列算法为研究生物序列而开发出的计算复杂度尽可能低的算法。比如,如何从序列中快速准确的找到重复序列。生物序列包括核酸序列,蛋白质序列或其原创 2020-06-06 00:51:58 · 222 阅读 · 0 评论 -
高通量测序与生物信息学面临的挑战
基因组学与测序技术高通量测序(High throughput sequencing)顾名思义,相较于常规测序技术,其通量有显著的提高。核心机理是采用高密度芯片实现并行测序技术,每个点就是一个测序反应。高通量测序技术在精准医学中的应用疾病基因筛查(Identify new disease genes) 基因组遗传病筛查(Genomics-based diagnostics) 精准诊断及治疗(Precision treatment)生物信息学面临的挑战数据规模庞大 数据类型负责 技原创 2020-06-05 22:26:26 · 1065 阅读 · 0 评论 -
蛋白质结构预测与分析
蛋白质的结构一级结构氨基酸序列二级结构周期性的结构构象三级结构整条多肽链的三维空间结构四级结构多个亚基形成的复合体结构蛋白质的二级结构蛋白质经过折叠后会形成规则的片段,这些规则的片段构成了蛋白质的二级结构单元。图 1蛋白质的二级结构DSSP指认DSSP(Definition of Secondary Structure of Proteins),即蛋白质二级结构定义词典。DSSP并不预测二级结构,而是根据二级结构的定义对已经测定三级结构的蛋白质的各.原创 2020-06-05 19:53:40 · 12049 阅读 · 0 评论 -
分子进化与系统发生
基本概念分子进化利用软件,从分子水平(DNA、RNA、蛋白质序列)而不是基于物种的外在特征来构建各种生物间的系统发生树。其准确度依赖软件的优劣及参数的设置。分子进化理论基于两个基本假设:DNA、RNA或蛋白质序列包含了物种的所有进化史信息 分子钟理论:一个特定蛋白质的进化变异的速度在不同物种中是基本恒定的。即两个蛋白质的序列越相近,他们距离共同祖先就越近。同源(Homologs)来源于共同祖先的相似的序列为同源序列。相似序列并不一定是同源序列。同源只能定性描述,不能定量描述。原创 2020-06-04 23:11:27 · 1116 阅读 · 0 评论 -
序列比较(下篇)
多序列比对介绍多序列比对,指对两条以上的生物序列进行全局比对。多序列比对的用途确认:一个未知的序列是否属于某个家族。 建立:系统发生树,查看物种间或者序列间的关系。 模式识别:一些特别保守的序列片段往往对应重要的功能区域,通过多序列比对,可以找到这些保守的片段。 已知推未知:把已知有特殊功能的序列片段通过多序列比对做成模型,然后根据该模型推测未知的序列是否也具有该功能。 其他:预测蛋白质/RNA的二级结构。多序列比对的算法目前所有的多序列比对工具都不是很完美的,它们都使用一种近似的原创 2020-06-04 21:08:54 · 2008 阅读 · 0 评论 -
序列比较(中篇)
在线双序列比对工具EMBL全局双序列比对工具Gap的类型及分值设置调整gap open和gap extend以达到期望的比对结果。EMBL局部序列比对工具其他在线双序列比对工具 软件名 比对类型 EMBL Global/Local PIR Global Lalign Global/Local LAGAN原创 2020-06-04 18:04:06 · 1231 阅读 · 0 评论 -
序列比较(上篇)
认识序列蛋白质序列由20个不同的字母(氨基酸)排列组合而成。核酸序列包括DNA序列和RNA序列。由4个不同的字母(碱基)排列组合而成。FASTA格式第一行:大于号加名称或其它注释。第二行以后:每行60个字母(也有80的,不一定)。序列相似性数据库中的序列相似性搜索对于一个蛋白质或核酸序列,你需要从序列数据库中找到与它相同或相似的序列。不可能再用眼睛去比较每一对序列,因为数据库中有太多序列,甚至用眼睛去比较一对序列都是不可能做到的。序列相似性的重要性相似的序列往原创 2020-06-04 14:45:58 · 4261 阅读 · 0 评论 -
生物数据库
生物数据库的定义生物数据库是被组织起来的大量生物数据,这些数据通过计算机可以被方便的访问、管理及更新。生物数据库的分类核酸数据库一级核酸数据库:存储的是通过各种科学手段得到的最直接的基础数据。如测序获得的核酸序列等。二级核酸数据库:是通过对一级数据中数据的分析整理归纳注释构建的具有特殊生物学意义和专门用途的数据库。如从三大核酸数据库和基因组数据库中提取并加工出的果蝇和蠕虫数据库。蛋白质数据库一级蛋白质数据库:存储的是通过各种科学手段得到的最直接的基础数据。如X射线衍射法获得的蛋白原创 2020-06-03 23:12:47 · 4198 阅读 · 0 评论 -
生物信息学绪论
生物信息学的定义HGP第一个五年总结报告:生物信息学是一门交叉学科、它包含了生物信息的获取、加工、存储、分配·、分析、解释等在内的所有方面,它运用数学、计算机科学和生物学的各种工具阐明和解释大量数据所包含的生物学意义。美国乔治亚理工大学:生物信息学是采用数学、统计学和计算机科学,分析生物学、生物化学和生物物理学数据的一门综合性学科。美国加州大学洛杉矶分校:生物信息学是对生物信息和生物学系统内在结构的研究,它将大量系统的生物学数据与数学和计算机科学的分析理论及应用工具联系起来。结论:生物信息学原创 2020-06-03 13:00:55 · 680 阅读 · 1 评论