生物信息学基础知识Day4


前言

个人对《R语言与Bioconductor 生物信息学应用》的一些摘录,方便自己日后查阅。

一.基因表达的检测方法

基因表达需要直接或间接测量某个生物个体(如人)内全部基因的转录产物(指侠义的转录组)在细胞中的丰度,常用的检测方法有实时荧光定量PCR(Quantitative real time PCR,qRT-PCR)、基因(表达谱)芯片(Microarray)、表达序列标签(Expressed Sequence Tag,EST)、基因表达序列分析(Serial Analysis of Gene Expression,SAGE)和转录组测序(RNA-seq)等。

二.基因表达数据分析

1.基因表达矩阵

基因表达数据通常用矩阵形式表示,称为基因表达矩阵。基因表达矩阵的一行代表一个基因在不同条件(如实验处理)下或来源(如组织、株系等)的表达,一列代表某个条件下或某个来源的样品内的所有基因的表达情况,每个格子的数据表示特定的基因在特定的条件下或特定来源的某个样品的表达水平。

2.基因表达数据分析

基因表达数据分析就是通过对基因表达矩阵的分析,回答一些生物学问题,例如,在不同条件或不同细胞类型中,哪些基因的表达存在显著差异?这些基因有什么共同的功能,或者参与什么共同的代谢途径?在不同条件下,哪些基因变化一致,他们受到哪些基因的调节,或者控制哪些基因的表达?哪些基因的表达是细胞状态特异性的,根据他们的行为可以判断细胞的状态(生存、增殖、分化、凋亡、癌变或应激等)等等。基因表达数据分析和实验设计密不可分,总体来说,实验设计有两大思路:一类是时间序列分析,主要思想是测定基因多个时间点的表达值,通过聚类和主成分分析等分析手段寻找共调控基因,进而研究其深层机制;第二类就是基因表达差异的显著性分析。

三.基因表达差异的显著性分析

基因表达差异的显著性分析(Significance analysis of gene differential expression),简称表达差异分析,是当前基因表达分析中的重中之重,其目的是比较两个条件(包括种属、表型等)下的基因表达差异,通过一定的统计学方法,从中识别出与条件相关的特异性基因,然后进一步分析这些特异性基因的生物学意义。

大概步骤

基因表达差异分析的第一步是要识别在两个条件下有显著 性表达差异的基因,简称差异表达(Differential Expression,DE)基因。何谓显著性表达差异?通常是指一个基因在两个条件中表达水平的检测值的差异,具有统计学意义,这个统计学意义往往是基于一定的统计假设(如正态分布假设)的。常用的算法有三类:第一类称之为倍数分析(无任何统计假设),计算每一个基因在两个条件下的比值,若大于给定阙值,则为差异表达基因;第二类方法采用经典统计模型(如T检验)或其变种(如SAM方法),计算表达差异的置信度(P值),选取一定P值(如0.01)以下的作为差异表达基因;第三类是通过机器学习方法进行特征(基因)选择,包括贝叶斯模型、支持向量机或者随机森林等。得到差异表达基因后,通常会进行基因本体论和通路分析(这些通常成为下游分析)。图2-9包括了表达差异分析的基本步骤,“其他分析”包括了一些更高级的统计分析,例如机器学习和进化分析等。

在这里插入图片描述

四.基因本体论分析

基因本体论(Gene Onotology,GO)分析包括GO注释和GO富集分析。GO是基因本体联合会(Gene Ontology Consortium )所建立的数据库,它由一组预先定义好的术语(GO term)组成,这组术语对基因和蛋白质功能进行限定和描述,适用于各种物种,并能随着研究不断深入而更新。

五.通路分析

通路(Pathway)分析包括通路注释和通路富集分析。通路富集分析的基本思路、统计模型等基本和GO富集分析如出一辙。


总结

需要学习五笔打字,拼音打字实在错误太多。其实我也不是很清楚上面的内容,有些名词倒是碰到过,好歹记录一下有个印象。大概之后会过来修修剪剪吧。书到用时方恨少,白首方悔读书迟。下篇见Day5.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值